СogVLM2-Video — обновление популярной VLM уровня GPT4V на основе Llama3-8B CogVLM2-Video обучалась на боле чем 30 тыс пар видео-

СogVLM2-Video — обновление популярной VLM уровня GPT4V на основе Llama3-8B CogVLM2-Video обучалась на боле чем 30 тыс пар видео-текст. Метод понимания видеоряда. реализованный в модели основан на автоматизированном процессе обобщения распознанных кадров с временной меткой, которым управляет LLM c навыком ранжирования локализаций и удержанием ключевого контекста. CogVLM2 способна проанализировать видео, дать ответы на вопросы по контексту видеоряда и предоставить текстовые субтитры значительно быстрее других VLM. Лицензия на использование: - для академических исследований бесплатно - для коммерческих проектов необходима регистрация через специальную форму и выполнение условий по указанию авторства на всех полученных материалах. Страничка CogVLM2 GitHub [ Stars: 1.5к | Issues: 26 | Forks: 79 ] Модель на HF
Back to Top