«Я твой дом труба шатал!», или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках

Backend

Data Science

Backend

Зал №1

Тезисы

Современный мир разнообразен, но глобален. И когда мы автоматизируем службу поддержки с помощью чат-бота, краулим и парсим новости, автомодерируем комменты на сайте или же оцениваем упоминания нашего продукта в соцсетях, то мы можем столкнуться с текстами не только на великом и могучем русском языке и даже не только на языке Шекспира, а на абсолютно любом — французском, китайском, арабском и даже каталанском.

Конечно, можно попробовать сделать отдельные модели для пары-тройки наиболее вероятных языков, а потом в случае необходимости масштабировать систему понимания текста, постепенно добавляя новые модели для новых языков. Но, во-первых, качественные современные модели анализа текстов весьма немаленькие, и занимают гигабайты памяти. Во-вторых, надо понять, когда подключать ту или иную модель, т.е. когда пользователь пишет на том или ином языке. И, в-третьих, далеко не для всех языков есть нормальные текстовые корпуса для предобучения, не говоря уже о необходимости формировать разметку для файнтюнинга.

В общем, куда не кинь, всюду клин. И тогда приходит идея — а что, если попробовать сделать одну большую нейросеть-полиглота, которая умела бы понимать текст на произвольном языке? Насколько реалистично воплотить такую идею в жизнь, и какое качество решения можно ожидать?

В своём докладе я постараюсь дать ответы на эти вопросы и поделиться своими рецептами построения мультиязычных глубоких нейросетей на базе популярной сейчас архитектуре Трансформеров и не только.

Аудитория и уровень

Medium.

Презентация (на Я.Диске)

Фан-чат CodeFest

Запись доклада

НГУ

Иван Бондаренко

Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)

«Я твой дом труба шатал!», или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках

Backend

Data Science

Запись доклада

Иван Бондаренко

Другие спикеры секции Backend

Ильназ Низаметдинов

Иван Чувашов

Григорий Кошелев

Алексей Миловидов

Сергей Елин

Павел Попов

Федор Игнатов

Артем Бояринцев

Михаил Воронов

Евгений Петров

Павел Василевич

Вадим Мартынов

Евгений Пешков

Владимир Лобода

Павел Степанец

Денис Юрьев

Артём Картасов

Денис Котов

Александр Коботов

Алексей Мерсон

Денис Цветцих

«Я твой дом труба шатал!», или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках Backend Data Science

Запись доклада

Иван Бондаренко

Другие спикеры секции Backend

Ильназ Низаметдинов

Иван Чувашов

Григорий Кошелев

Алексей Миловидов

Сергей Елин

Павел Попов

Федор Игнатов

Артем Бояринцев

Михаил Воронов

Евгений Петров

Павел Василевич

Вадим Мартынов

Евгений Пешков

Владимир Лобода

Павел Степанец

Денис Юрьев

Артём Картасов

Денис Котов

Александр Коботов

Алексей Мерсон

Денис Цветцих

Было, но прошло 29—30 мая 2021, Новосибирск, Экспоцентр, Станционная, 104

Контакты

Мы в соцсетях

«Я твой дом труба шатал!», или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках

Backend

Data Science

Было, но прошло
29—30 мая 2021,
Новосибирск, Экспоцентр, Станционная, 104