AiConf

Как «Писец» на «Тотальный диктант» ходил, или Пара слов о робастном распознавании речи

Работа со звуком

ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Иван коснётся современных методов распознавания речи (для русского языка в том числе) и сделает это на симпатичном практическом примере. Как современная модель сравнится с людьми в тотальном диктанте?

Целевая аудитория

Те, кто занимается распознаванием речи, и в целом специалисты по нейронным сетям.

Тезисы

В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, от журналистского интервью до заседания диссертационного совета. Эта система, будто древнерусский писец за боярином, записывает всё, что говорите вы и ваши собеседники, и сохраняет в виде структурированного текста с таймингами.

В своём докладе я расскажу о том, с какими трудностями нам пришлось столкнуться при создании нашего «Писца», как мы используем Wav2Vec2 и Whisper в пайплайне распознавания и зачем нам надо было файнтюнить Whisper (он же хорош из коробки, разве нет?). Кроме того, интересным является не только вопрос, зачем файнтюнить Whisper, но и как его файнтюнить так, чтобы получилось действительно хорошо. Поэтому в ходе доклада я также коснусь необходимости робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.

Любит свою семью и машинное обучение, преподает в НГУ, делает нейросети, ходит в горы.

В настоящий момент работает старшим преподавателем и научным сотрудником Новосибирского государственного университета. Вместе со своими учениками является сооснователем стартапа «Сибирские нейросети».

С 2006 до 2013 года преподавал и занимался научными исследованиями в Донецком национальном техническом университете, затем перешёл в IT-индустрию и работал на различных должностях — от инженера-разработчика до специалиста по машинному обучению — в ряде компаний и университетов, таких как 2ГИС, Huawei, Global Logic, Data Monsters, МФТИ (DeepPavlov).

НГУ

Новосибирский государственный университет (НГУ) входит в топ-10 лучших российских университетов согласно QS World University Rankings. Механико-математический факультет, где Иван занимается исследованиями по основному месту работы, является крупнейшим центром исследовательской и преподавательской деятельности по искусственному интеллекту в НГУ. Так, на факультете существует Инженерная школа для бакалавров, магистратура по прикладному машинному обучению и большим данным (совместно с Яндекс-ШАД), лаборатории факультета выполняют проекты по ИИ для индустриальных партнёров НГУ (например, https://nauka.tass.ru/nauka/18507183).

Видео

Другие доклады секции

Работа со звуком