Separating the “Chirp“ from the “Chat“: Self-supervised Visual Grounding of Sound and Language Исследователи Массачусетского

Separating the “Chirp“ from the “Chat“: Self-supervised Visual Grounding of Sound and Language Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит. Он совершенно не контролируется и не использует текст во время обучения. Алгоритм может соотносить объекты с видео со звуками, которые они издают. Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами. DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку. Paper: Website: Code: Video:
Back to Top