Оптимизация доставки данных в real-time-ранжировании на GPU

Оптимизация железа

Оптимизация

Рекомендации / ML

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если у вас хватило денег на топовую видеокарту для инференса, вы, вероятно, захотите ее загрузить по максимуму, чтобы не простаивала. В задаче Алексея узким местом оказалась доставка фич и весов до видеокарты. Из доклада вы узнаете, что делать, если окажетесь на месте спикера.

Целевая аудитория

Инженеры, разрабатывающие high-load ML-сервисы с инференсом на GPU. Специалисты по ранжированию и рекомендательным системам, а также ML-инженеры, интересующиеся real-time-инференсом на GPU.

Тезисы

Скачать презентацию Все презентации конференции

В задачах ML-инференса с использованием GPU основное внимание обычно уделяется оптимизации вычислений самой модели. При этом на практике значимую долю времени может занимать доставка данных: подготовка и передача признаков до GPU нередко вносят существенный вклад в общую latency.

В докладе рассматривается архитектура real-time-сервиса ранжирования, где признаки поступают из разных источников: часть передается в запросе по сети, часть хранится локально, в том числе в памяти GPU. Основной фокус — на оптимизации всего пути данных: от запроса до входных тензоров модели на GPU. Будут разобраны типичные bottleneck’и (сеть, CPU→GPU передача, подготовка данных на GPU) и практические подходы к их устранению: оптимизация формата и структуры данных, минимизация копирований и сборка входных тензоров непосредственно в памяти GPU.

Подходы основаны на практическом опыте разработки высоконагруженного сервиса ранжирования на GPU. Они позволяют снизить latency и повысить утилизацию GPU.

Алексей Борисов

Ведущий разработчик группы нейросетевого ранжирования AI VK.
В течение трех лет занимался развитием рекомендательных алгоритмов в VK Музыке: запустил VK Микс с мультинастройками, микс по плейлисту «Моя музыка», внедрил использование контентных признаков для улучшения качества рекомендаций. Сейчас разрабатывает платформу real-time нейросетевого ранжирования AI VK.

Оптимизация доставки данных в real-time-ранжировании на GPU

Мнение Программного комитета о докладе

Целевая аудитория

Тезисы

Видео

Быть в курсе обновлений программы

Иметь ранний доступ к расшифровкам, видео и другим полезным материалам.

Стать партнером

Корпоративное участие

Мы используем файлы cookie