Как добавить в LLM аудио-модельность: примеры реализаций
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В этом докладе мы разберем, как мы можем обычные большие языковые модели (LLM) превратить в мультимодальные системы, способные работать с аудио. Мы вместе разберем разные способы подачи аудио на вход LLM, рассмотрим как устроены и работают аудиокодеки и энкодеры, а также посмотрим как их можно эффективно итегрировать с LLM. Ну и напоследок обсудим как можно уменьшить время задержки при обработке аудио.
Тезисы:
- Введение в мультимодальные языковые модели
- Архитектурные решения для обработки аудио
- Методы интеграции аудио-модальности в языковые модели
- Способы уменьшить задержку при обработке аудио
32 года в IT . Последние 6 лет занимаюсь обучением нейронных сетей распознавать речь. Увлекаюсь фантастикой, плаваньем , парусным спортом , люблю мастерить чего нибудь руками.
Видео
Другие доклады секции
GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D