AiConf

Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

LLM говорит: мультимодальные задачи в речевом домене

Работа со звуком

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Современные LLM умеют отвечать текстом, визуальные LLM умеют понимать и рисовать картинки, а как заставить LLM говорить и слышать? Борис расскажет о возможностях LLM в домене аудио — распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса.

Целевая аудитория

DS в области обработки аудио, МL-разработчики, разработчики перспективных продуктов на основе перспективных МL-решений.

Тезисы

Доклад о возможностях LLM-архитектур в аудиодомене: понимание аудио, распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса. Рассмотрим как узкоспециализированные, так и мультизадачные архитектуры. А также SFT предобученной текстовой LLM на аудиоданных.

Teamlead Rnd.TTS.

Видео