VEnhancer: Генеративное улучшение синтезированного видео. VEnhancer - генеративная система апсемлинга пространственно-временных

VEnhancer: Генеративное улучшение синтезированного видео. VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области. Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x. VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet. Несколько дней назад VEnhancer получил обновление: Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями); Быстрая выборка с 15 шагами без потери качества (путем установки —solver_mode ’fast’ в команде скрипта); Использование временного VAE для уменьшения мерцания. Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео. Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM. Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI . Установка: git clone cd VEnhancer conda create -n venhancer python= conda activate venhancer pip install torch== torchvision== torchaudio== pip install -r Установка пакета ffmpeg: sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y Инференс с помощью CLI: bash Инференс с помощью GradioUI: python Страница проекта Arxiv Модель

8 views