AiConf

Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Как «Писец» на «Тотальный диктант» ходил, или Пара слов о робастном распознавании речи

Работа со звуком

ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Иван коснётся современных методов распознавания речи (для русского языка в том числе) и сделает это на симпатичном практическом примере. Как современная модель сравнится с людьми в тотальном диктанте?

Целевая аудитория

Те, кто занимается распознаванием речи, и в целом специалисты по нейронным сетям.

Тезисы

В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, от журналистского интервью до заседания диссертационного совета. Эта система, будто древнерусский писец за боярином, записывает всё, что говорите вы и ваши собеседники, и сохраняет в виде структурированного текста с таймингами.

В своём докладе я расскажу о том, с какими трудностями нам пришлось столкнуться при создании нашего «Писца», как мы используем Wav2Vec2 и Whisper в пайплайне распознавания и зачем нам надо было файнтюнить Whisper (он же хорош из коробки, разве нет?). Кроме того, интересным является не только вопрос, зачем файнтюнить Whisper, но и как его файнтюнить так, чтобы получилось действительно хорошо. Поэтому в ходе доклада я также коснусь необходимости робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.

Любит свою семью и машинное обучение, преподает в НГУ, делает нейросети, ходит в горы.

В настоящий момент работает старшим преподавателем и научным сотрудником Новосибирского государственного университета. Вместе со своими учениками является сооснователем стартапа «Сибирские нейросети».

С 2006 до 2013 года преподавал и занимался научными исследованиями в Донецком национальном техническом университете, затем перешёл в IT-индустрию и работал на различных должностях — от инженера-разработчика до специалиста по машинному обучению — в ряде компаний и университетов, таких как 2ГИС, Huawei, Global Logic, Data Monsters, МФТИ (DeepPavlov).

Видео

Другие доклады секции

Работа со звуком