Не NVIDIA единой, или как строить архитектуру LLM продукта
Доклад принят в программу конференции
Целевая аудитория
Тезисы
NVIDIA - монополист в сфере AI-железа с долей свыше 80% рынка, а вот CUDA стала экосистемой с сетевыми эффектами, а миграция на альтернативы кажется не просто тяжелым решением, но и мало кто осилит.
AMD стоит в production у Microsoft Azure, Google TPU сэкономил Midjourney $16.8M в год, Cerebras выдаёт в 8 раз больше токенов в секунду, чем топовые GPU NVIDIA. Groq убрал из архитектуры рантайм-планировщик и получил детерминированную латентность. SambaNova первым запустил крупнейшую open-source модель без единого GPU. А AWS построил крупнейший non-NVIDIA кластер - полмиллиона собственных чипов для Anthropic.
В этом докладе разберём, почему узкое место LLM-инференса - не вычислительная мощность, а пропускная способность памяти, и как нестандартные архитектуры - вафельные чипы, dataflow-процессоры, детерминированные стримеры - пытаются решить эту проблему в лоб.
gRPC & Open Source-евангелист, а также основатель Open Source-инструмента EasyP, Go-разработчик.
Видео
Другие доклады секции
LLM