Бенчмаркинг ASR на CPU: как выбрать бэкенд, настроить Triton и не потерять в точности

ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.

Масштабирование с нуля

Оптимизация

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Из доклада вы получите целых две ценности: с одной стороны, практики переноса моделей для распознавания речи на CPU, с другой стороны, подходы к правильному сравнению производительности этих моделей.

Целевая аудитория

Инженеры по оптимизации (Performance Engineers), ML Engineers, MLOps/DevOps, Data Scientists.

Тезисы

Все презентации конференции

В докладе будут рассмотрены вопросы сравнительного анализа производительности ASR-модели на CPU при использовании различных бэкендов. Мы детально исследуем различия в работе ONNX Runtime (с поддержкой INT8-квантизации) и OpenVINO (с оптимизациями под AMX-инструкции). Особое внимание уделим влиянию конфигурации Triton Server (батчинг, параллелизм) на итоговую производительность. Представим результаты тестирования на разных CPU-архитектурах.

Владимир Никулин

MWS AI

9 лет в IT, совмещает научную деятельность с практической разработкой. В 2023 году защитил кандидатскую диссертацию по оценке надежности распределенных вычислительных систем. Карьерный путь начинал как научный сотрудник в исследовательском институте, где занимался алгоритмами обработки сигналов. Участвовал в масштабировании системы «Безопасный город» для Департамента транспорта Москвы (оптимизация потоковой обработки видео). Сейчас руководит группой разработки в MTS AI: их команда обеспечивает промышленное внедрение ML-моделей для задач распознавания речи и синтеза текста (ASR/TTS).