Движки инференса LLM в 2026: vLLM, SGLang, NVIDIA Dynamo — как запустить on‑prem прод и не изобрести велосипед

LLM

Python
ML

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Целевая аудитория ML/LLM-инженеры и MLOps/LLMOps-специалисты, запускающие модели в проде. DevOps/SRE/Platform команды, отвечающие за on‑prem GPU‑кластеры, Kubernetes, наблюдаемость и SLO. Техлиды/архитекторы, принимающие решения по стеку инференса и стоимости владения. В меньшей степени: продакты/менеджеры, которым важно понимать компромиссы «скорость/стоимость/сложность». Формат: практический доклад с примерами, анти‑паттернами и чек‑листами.

Тезисы

LLM-инференс выделился в отдельный класс задач: ключевую роль играют KV-cache, разделение prefill/decode и работа с длинными контекстами, что напрямую влияет на латентность и загрузку GPU.

В результате индустрия пришла к специализированным движкам (vLLM, SGLang), а NVIDIA развивает Dynamo AI — набор подходов и компонентов для более предсказуемых SLO и максимальной утилизации ускорителей.

ex. teamlead команды LLMOPS в АльфаБанке, lead llm inference в HH

Видео

Другие доклады секции

LLM