Движки инференса LLM в 2026: vLLM, SGLang, NVIDIA Dynamo — как запустить on‑prem прод и не изобрести велосипед
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
LLM-инференс выделился в отдельный класс задач: ключевую роль играют KV-cache, разделение prefill/decode и работа с длинными контекстами, что напрямую влияет на латентность и загрузку GPU.
В результате индустрия пришла к специализированным движкам (vLLM, SGLang), а NVIDIA развивает Dynamo AI — набор подходов и компонентов для более предсказуемых SLO и максимальной утилизации ускорителей.
ex. teamlead команды LLMOPS в АльфаБанке, lead llm inference в HH
Видео
Другие доклады секции
LLM