LLM говорит: мультимодальные задачи в речевом домене

Работа со звуком

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Современные LLM умеют отвечать текстом, визуальные LLM умеют понимать и рисовать картинки, а как заставить LLM говорить и слышать? Борис расскажет о возможностях LLM в домене аудио — распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса.

Целевая аудитория

DS в области обработки аудио, МL-разработчики, разработчики перспективных продуктов на основе перспективных МL-решений.

Тезисы

Скачать презентацию Все презентации конференции

Доклад о возможностях LLM-архитектур в аудиодомене: понимание аудио, распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса. Рассмотрим как узкоспециализированные, так и мультизадачные архитектуры. А также SFT предобученной текстовой LLM на аудиоданных.

Борис Жестков

SberDevices

Teamlead Rnd.TTS.