«Я твой дом труба шатал!», или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках
Data Science

Backend
Зал №1

Тезисы

Современный мир разнообразен, но глобален. И когда мы автоматизируем службу поддержки с помощью чат-бота, краулим и парсим новости, автомодерируем комменты на сайте или же оцениваем упоминания нашего продукта в соцсетях, то мы можем столкнуться с текстами не только на великом и могучем русском языке и даже не только на языке Шекспира, а на абсолютно любом — французском, китайском, арабском и даже каталанском.

Конечно, можно попробовать сделать отдельные модели для пары-тройки наиболее вероятных языков, а потом в случае необходимости масштабировать систему понимания текста, постепенно добавляя новые модели для новых языков. Но, во-первых, качественные современные модели анализа текстов весьма немаленькие, и занимают гигабайты памяти. Во-вторых, надо понять, когда подключать ту или иную модель, т.е. когда пользователь пишет на том или ином языке. И, в-третьих, далеко не для всех языков есть нормальные текстовые корпуса для предобучения, не говоря уже о необходимости формировать разметку для файнтюнинга.

В общем, куда не кинь, всюду клин. И тогда приходит идея — а что, если попробовать сделать одну большую нейросеть-полиглота, которая умела бы понимать текст на произвольном языке? Насколько реалистично воплотить такую идею в жизнь, и какое качество решения можно ожидать?

В своём докладе я постараюсь дать ответы на эти вопросы и поделиться своими рецептами построения мультиязычных глубоких нейросетей на базе популярной сейчас архитектуре Трансформеров и не только.

Аудитория и уровень

Medium.

Презентация (на Я.Диске)

Записи выступлений доступны платным участникам CodeFest 11
В свободном доступе появятся через год

Залогиниться

Huawei

Иван Бондаренко

Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)

Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)

Другие спикеры секции Backend: