Мнение Программного комитета о докладе
Современные LLM умеют отвечать текстом, визуальные LLM умеют понимать и рисовать картинки, а как заставить LLM говорить и слышать? Борис расскажет о возможностях LLM в домене аудио — распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса.