Мятное видео. Вы будете смеяться, но у нас новый видео-генератор! Причем не простой! А с ништяками

Мятное видео. Вы будете смеяться, но у нас новый видео-генератор! Причем не простой! А с ништяками. MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps. Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu. Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки. Проще показать промпт: [ → ]: A young man typing on the laptop keyboard with both hands. [ → ]: The man touches the headphones with his right hand. [ → ]: The man closes the laptop with his left hand. [ → ]: The man stands up. И все это в одном сеттинге. Выглядит очень нарядно, всегда симпатизировал разработкам Снапа. Обязательно посмотрите примеры тут : Там интересно. По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное. У моделей вообще отношения со временем не очень, а тут попытка приручить время. Также поглядите на интересную работу на тему времени тут .
Back to Top