Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Оптимизация доставки данных в real-time-ранжировании на GPU

Оптимизация железа

Оптимизация
Рекомендации / ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если у вас хватило денег на топовую видеокарту для инференса, вы, вероятно, захотите ее загрузить по максимуму, чтобы не простаивала. В задаче Алексея узким местом оказалась доставка фич и весов до видеокарты. Из доклада вы узнаете, что делать, если окажетесь на месте спикера.

Целевая аудитория

Инженеры, разрабатывающие high-load ML-сервисы с инференсом на GPU. Специалисты по ранжированию и рекомендательным системам, а также ML-инженеры, интересующиеся real-time-инференсом на GPU.

Тезисы

В задачах ML-инференса с использованием GPU основное внимание обычно уделяется оптимизации вычислений самой модели. При этом на практике значимую долю времени может занимать доставка данных: подготовка и передача признаков до GPU нередко вносят существенный вклад в общую latency.

В докладе рассматривается архитектура real-time-сервиса ранжирования, где признаки поступают из разных источников: часть передается в запросе по сети, часть хранится локально, в том числе в памяти GPU. Основной фокус — на оптимизации всего пути данных: от запроса до входных тензоров модели на GPU. Будут разобраны типичные bottleneck’и (сеть, CPU→GPU передача, подготовка данных на GPU) и практические подходы к их устранению: оптимизация формата и структуры данных, минимизация копирований и сборка входных тензоров непосредственно в памяти GPU.

Подходы основаны на практическом опыте разработки высоконагруженного сервиса ранжирования на GPU. Они позволяют снизить latency и повысить утилизацию GPU.

Ведущий разработчик группы нейросетевого ранжирования AI VK.
В течение трех лет занимался развитием рекомендательных алгоритмов в VK Музыке: запустил VK Микс с мультинастройками, микс по плейлисту «Моя музыка», внедрил использование контентных признаков для улучшения качества рекомендаций. Сейчас разрабатывает платформу real-time нейросетевого ранжирования AI VK.

Видео