Как добавить в LLM аудиомодальность: примеры реализаций

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Стандартная обработка аудио в LLM требует преобразования речи в текст и обратно, что замедляет отклик и теряет эмоциональные нюансы. Доклад расскажет, как напрямую интегрировать аудиомодальность в LLM. Практические примеры и архитектурные решения для реальных кейсов — в рассказе разработчика.

Целевая аудитория

ML-инженеры, архитекторы, все, кто интересуется созданием умных ассистентов на основе LLM.

Тезисы

Скачать презентацию Все презентации конференции

В этом докладе мы разберем, как мы можем обычные большие языковые модели (LLM) превратить в мультимодальные системы, способные работать с аудио. Мы вместе разберем разные способы подачи аудио на вход LLM, рассмотрим, как устроены и работают аудиокодеки и энкодеры, а также посмотрим, как их можно эффективно интегрировать с LLM. Ну и напоследок обсудим, как можно уменьшить время задержки при обработке аудио.

Тезисы:
* введение в мультимодальные языковые модели;
* архитектурные решения для обработки аудио;
* методы интеграции аудиомодальности в языковые модели;
* способы уменьшить задержку при обработке аудио.

Андрей Парков

MWS AI

32 года в IT . Последние 6 лет занимается обучением нейронных сетей распознавать речь. Увлекается фантастикой, плаваньем, парусным спортом, любит мастерить чего-нибудь руками.