Мастер-класс «Движки инференса LLM в 2026: vLLM, SGLang, NVIDIA Dynamo — как запустить on‑prem-прод и не изобрести велосипед»

LLM

Python

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Каждый второй, не считая каждого первого, страдает от того, что железо нынче слишком дорого. Из мастер-класса Александра вы сможете почерпнуть несколько идей, как организовать инференс более эффективно.

Целевая аудитория

ML/LLM-инженеры и MLOps/LLMOps-специалисты, запускающие модели в проде. DevOps/SRE/Platform-команды, отвечающие за on‑prem GPU‑кластеры, Kubernetes, наблюдаемость и SLO. Техлиды/архитекторы, принимающие решения по стеку инференса и стоимости владения. В меньшей степени: продакты/менеджеры, которым важно понимать компромиссы «скорость/стоимость/сложность». Формат: практический доклад с примерами, антипаттернами и чек‑листами.

Тезисы

Скачать презентацию Все презентации конференции

LLM-инференс выделился в отдельный класс задач: ключевую роль играют KV-cache, разделение prefill/decode и работа с длинными контекстами, что напрямую влияет на латентность и загрузку GPU.

В результате индустрия пришла к специализированным движкам (vLLM, SGLang), а NVIDIA развивает Dynamo AI — набор подходов и компонентов для более предсказуемых SLO и максимальной утилизации ускорителей.

Александр Рыжов

hh.ru

ex. teamlead команды LLMOPS в АльфаБанке, lead llm inference в HH.