Синтетический мир и новый высококачественный видео-генератор. Щас будет подводка, кому tl;dr шуруйте в конец

Синтетический мир и новый высококачественный видео-генератор. Щас будет подводка, кому tl;dr шуруйте в конец. Я уже писал, что у Unity, например, есть отдельная платформа для генерации синтетических (ну то есть ненастоящих видео, а рендеров). Чтобы не размечать реальные видосы индийскими ручками, а запускать “машинки с камерами“ по 3Д-мирам, созданным в Юнити и рендерить видео, где уже все размечено еще на этапе моделинга. И self-driving cars успешно учатся на таких рендерах. Так вот, встречайте: MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control Это видео-генератор, который не умеет в лица и пальцы, но зато генерит именно виды улиц с качеством, которое не снилось опен-сорсу и некоторым другим генераторам. Ну и самое главное, он генерит такую длину и фпс, которая даже не на радарах у “развлекательных“ видеогенераторов. Интересно, что я уже писал про Лоры для поворота влево. Теперь вот и сами модели могут поделиться на классы: пейзажные, фишайные, суперзумные, поворот не туда, ну и тд. Это как на площадке: меняем оптику, декорацию и свет - а на нейроплощадке: загружаем модель для Улиц Секса в Большом Городе. И ну генерить. Меня, правда слегка беспокоит вопрос деградации моделей для беспилотников при таком обучении. Если долго учиться на синтетике, можно немного отупеть, как показывают ранние примеры с LLM (щас может уже не так, или метрики подкрутили). Но тут все-таки беспилотники будут учится на галлюцинациях видеомодели, а не зумеры чатиться с ботами. Уроборос в общем. И это, кстати, Хуавейчик. Который сделал Pixar Sigma и еще много чего для картинок: На примерах много видео, которое ничем не отличается от видеорегистраций, и только надписи на асфальте заставляют вздрагивать. Код будет, кстати.

1 view