Не NVIDIA единой, или Как строить архитектуру LLM-продукта
Доклад принят в программу конференции
Целевая аудитория
Тезисы
NVIDIA — монополист в сфере AI-железа с долей свыше 80% рынка, а вот CUDA стала экосистемой с сетевыми эффектами, а миграция на альтернативы кажется не просто тяжелым решением, но и мало кто осилит.
AMD стоит в production у Microsoft Azure, Google TPU сэкономил Midjourney $16.8M в год, Cerebras выдает в 8 раз больше токенов в секунду, чем топовые GPU NVIDIA. Groq убрал из архитектуры рантайм-планировщик и получил детерминированную латентность. SambaNova первым запустил крупнейшую open source-модель без единого GPU. А AWS построил крупнейший non-NVIDIA кластер — полмиллиона собственных чипов для Anthropic.
В этом докладе разберем, почему узкое место LLM-инференса — не вычислительная мощность, а пропускная способность памяти, и как нестандартные архитектуры — вафельные чипы, dataflow-процессоры, детерминированные стримеры — пытаются решить эту проблему в лоб.
gRPC & Open Source-евангелист, а также основатель Open Source-инструмента EasyP, Go-разработчик.
Видео
Другие доклады секции
LLM