Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Не NVIDIA единой, или Как строить архитектуру LLM-продукта

LLM

Доклад принят в программу конференции

Целевая аудитория

Все фанаты работы с AI.

Тезисы

NVIDIA — монополист в сфере AI-железа с долей свыше 80% рынка, а вот CUDA стала экосистемой с сетевыми эффектами, а миграция на альтернативы кажется не просто тяжелым решением, но и мало кто осилит.

AMD стоит в production у Microsoft Azure, Google TPU сэкономил Midjourney $16.8M в год, Cerebras выдает в 8 раз больше токенов в секунду, чем топовые GPU NVIDIA. Groq убрал из архитектуры рантайм-планировщик и получил детерминированную латентность. SambaNova первым запустил крупнейшую open source-модель без единого GPU. А AWS построил крупнейший non-NVIDIA кластер — полмиллиона собственных чипов для Anthropic.

В этом докладе разберем, почему узкое место LLM-инференса — не вычислительная мощность, а пропускная способность памяти, и как нестандартные архитектуры — вафельные чипы, dataflow-процессоры, детерминированные стримеры — пытаются решить эту проблему в лоб.

Эдгар Сипки

SIPKI Technologies

gRPC & Open Source-евангелист, а также основатель Open Source-инструмента EasyP, Go-разработчик.

Видео