AiConf

LLM говорит: мультимодальные задачи в речевом домене

Работа со звуком

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Современные LLM умеют отвечать текстом, визуальные LLM умеют понимать и рисовать картинки, а как заставить LLM говорить и слышать? Борис расскажет о возможностях LLM в домене аудио — распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса.

Целевая аудитория

DS в области обработки аудио, МL-разработчики, разработчики перспективных продуктов на основе перспективных МL-решений.

Тезисы

Доклад о возможностях LLM-архитектур в аудиодомене: понимание аудио, распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса. Рассмотрим как узкоспециализированные, так и мультизадачные архитектуры. А также SFT предобученной текстовой LLM на аудиоданных.

Teamlead Rnd.TTS.

SberDevices

SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberJazz, GigaChat, Kandinsky и другие легенды.

Видео