Emu3: набор MMLM, основанный на методе предсказании следующего токена

Emu3: набор MMLM, основанный на методе предсказании следующего токена. Модели Emu3 разработаны для задач мультимодальной изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео. Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования. Процесс изображения). Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео). Представлены 3 модели: Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы; Emu3-Gen – модель для и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений. Инференс моделей пока доступен только в СLI на Transformers, примеры для

34 views