AiConf

Бенчмаркинг ASR на CPU: как выбрать бэкенд, настроить Triton и не потерять в точности

ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.

Масштабирование с нуля
Оптимизация
ML

Доклад принят в программу конференции

Целевая аудитория

Инженеры по оптимизации (Performance Engineers), ML Engineers, MLOps/DevOps, Data Scientists.

Тезисы

В докладе будут рассмотрены вопросы сравнительного анализа производительности ASR-модели на CPU при использовании различных бэкендов. Мы детально исследуем различия в работе ONNX Runtime (с поддержкой INT8-квантизации) и OpenVINO (с оптимизациями под AMX-инструкции). Особое внимание уделим влиянию конфигурации Triton Server (батчинг, параллелизм) на итоговую производительность. Представим результаты тестирования на разных CPU-архитектурах.

9 лет в IT, совмещаю научную деятельность с практической разработкой. В 2023 году защитил кандидатскую диссертацию по оценке надёжности распределённых вычислительных систем. Карьерный путь начинал как научный сотрудник в исследовательском институте, где занимался алгоритмами обработки сигналов. Участвовал в масштабировании системы «Безопасный город» для Департамента транспорта Москвы (оптимизация потоковой обработки видео). Сейчас руковожу группой разработки в MTS AI: наша команда обеспечивает промышленное внедрение ML-моделей для задач распознавания речи и синтеза текста (ASR/TTS).

Из увлечений: реставрация советского катера «Прогресс-2» 1973 года и рыбалка на реках Сибири.

Видео