Опыт перехода от maas к selfhosted/on premise моделям: проблемы, боли, решения

LLM

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Технические руководители (CTO, Lead ML Engineers, Architects) и senior-специалисты (MLOps, DevOps), которые уже используют или планируют внедрять генеративный AI в высоконагруженные коммерческие продукты. Доклад рассчитан на практиков, принимающих решения о стратегии развертывания моделей и решающих задачи промышленной эксплуатации, масштабирования и оптимизации затрат.

Тезисы

В докладе поделимся практическим опытом переезда высоконагруженных AI-сценариев с вендорских моделей как услуги (MaaS) на локальные (on-premise) LLM, STT и эмбеддинги. Расскажем про реальные инженерные проблемы такого перехода: от ограничений контекстного окна и ресурсоемкости его обработки до деградации скорости инференса на фреймворках вроде vLLM и сложностей балансировки разноплановой нагрузки. Развенчаем популярные мифы о хостинге моделей и дадим конкретные инсайты, основанные на эксплуатации ансамбля моделей, обрабатывающего миллионы запросов в месяц.

Сергей Нотевский

Битрикс24

Разработчик команды AI/ML в Битрикс24. Сергей отвечает на направление LLM-моделей, поиск, анализ, адаптацию и тестирование нейросетей на собственных сценариях Битрикс24. Занимается разработкой бенчмарка для сравнения ML-моделей.

Помогает активно внедрять AI-технологии в работу разных департаментов компании — от бухгалтерии до разработки.

Является постоянным ведущим бесплатного онлайн-практикума AIшница для руководителей и предпринимателей. Регулярно выступает на отраслевых конференциях, участвует в подкастах и делится комментариями со СМИ. Например, CRM CONF 2024 и Mad Brains.