Или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках.
Современный мир разнообразен, но глобален. И когда мы автоматизируем службу поддержки с помощью чат-бота, краулим и парсим новости, автомодерируем комменты на сайте или же оцениваем упоминания нашего продукта в соцсетях, то мы можем столкнуться с текстами не только на великом и могучем русском языке и даже не только на языке Шекспира, а на абсолютно любом — французском, китайском, арабском и даже каталанском.
Конечно, можно попробовать сделать отдельные модели для пары-тройки наиболее вероятных языков, а потом в случае необходимости масштабировать систему понимания текста, постепенно добавляя новые модели для новых языков. Но, во-первых, качественные современные модели анализа текстов весьма немаленькие, и занимают гигабайты памяти. Во-вторых, надо понять, когда подключать ту или иную модель, т.е. когда пользователь пишет на том или ином языке. И, в-третьих, далеко не для всех языков есть нормальные текстовые корпуса для предобучения, не говоря уже о необходимости формировать разметку для файнтюнинга.
В общем, куда не кинь, всюду клин. И тогда приходит идея — а что, если попробовать сделать одну большую нейросеть-полиглота, которая умела бы понимать текст на произвольном языке? Насколько реалистично воплотить такую идею в жизнь, и какое качество решения можно ожидать?
В своём докладе я постараюсь дать ответы на эти вопросы и поделиться своими рецептами построения мультиязычных глубоких нейросетей на базе популярной сейчас архитектуре Трансформеров и не только.
Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)
Презентация:
Codefest:
1 view
919
274
1 month ago 00:07:37 1
Эксперт (Короткометражка, Русский дубляж)
1 month ago 00:04:05 1
Леонид Агутин, Therr Maitz — Никаких больше вечеринок / LAB с Антоном Беляевым
1 month ago 00:04:54 1
Валерия Ермакова, Therr Maitz — Это все (LAB с Антоном Беляевым)
1 month ago 02:12:58 1
Noize MC — С оркестром классно! Crocus City Hall
1 month ago 00:03:14 2
Варя Стрижак. Родина, Вспомни Обо Мне, Верни Мне Пропавшее Имя!
1 month ago 00:12:03 1
Почему мы не любим думать [Veritasium]
1 month ago 00:52:46 1
Луч Последней Надежды. Лодочник и Гостья на Маяке.
1 month ago 01:34:13 1
УЛИЦА МЛАДШЕГО СЫНА - Фильм / Военная драма (Экранизация романа Л. Кассиля и М. Поляновского)
1 month ago 00:04:03 1
Леонид Агутин, Therr Maitz — Ты вернешься когда-нибудь снова (LAB с Антоном Беляевым)
1 month ago 00:13:36 1
Пожалуй, главное заблуждение об электричестве [Veritasium]
1 month ago 00:23:36 1
Открытие, которое случайно убило миллионы [Veritasium]
1 month ago 00:10:29 1
Роберт Сапольски о своих, чужих и вооруженных конфликтах
1 month ago 00:02:40 1
KOLA - Salut papa
1 month ago 00:05:36 1
Cream Soda - Сердце Лёд (премьера клипа 2020)
1 month ago 00:27:05 21
СИБИРСКИЕ ИННОВАЦИИ: ПЕЧЕНЬЕ ИЗ СВЕРЧКОВ И ФИОЛЕТОВАЯ ПШЕНИЦА / Редакция.Наука
1 month ago 01:11:03 1
Мнимые числа реальны: #1-13 [Welch Labs]
1 month ago 00:05:57 1
Ольга Бузова - Верни ( Премьера клипа 2023)
1 month ago 00:06:25 1
Ольга Бузова - “Позови“ Премьера клипа 2023
1 month ago 00:42:48 1
Лекторий Сообщества по математическому моделированию на АТОМЭКСПО-2024
1 month ago 01:47:36 11
Гармонь в прямом эфире на Вятке (17), ПТАШИЦА и МЫ ВЯТСКИЕ у Вани на диване
1 month ago 00:23:31 1
Как всё-таки работает электричество? [Veritasium]
1 month ago 00:03:19 1
GAYAZOV$ BROTHER$ - С ДНЁМ РОЖДЕНИЯ (Official Music Video)
1 month ago 00:26:38 1
Серийного убийцу нашли по ДНК его родственников [Veritasium]