Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

В последние годы набирают популярность визуально-языковые модели. Это мультимодальные модели, которые позволяют, например, осуществлять поиск изображений по тексту. Как правило, в таких моделях используются качественные данные, фильтрация и разметка которых стоит очень дорого. На семинаре мы рассмотрим результаты авторов рассматриваемой статьи. Они показали, что в визуально-языковых моделях можно пренебречь качеством текстовых данных и получить высокое качество модели за счёт возникающего большого объёма данных, который компенсирует их зашумлённость. Такой подход позволил авторам получить SOTA модель при использовании архитектуры dual-encoder и contrastive loss на бенчмарках для image-text поиска. Докладчик: Виктория Фролова.

6 views