Не NVIDIA единой, или как строить архитектуру LLM продукта

LLM

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Все фанаты работы с AI

Тезисы

NVIDIA - монополист в сфере AI-железа с долей свыше 80% рынка, а вот CUDA стала экосистемой с сетевыми эффектами, а миграция на альтернативы кажется не просто тяжелым решением, но и мало кто осилит.

AMD стоит в production у Microsoft Azure, Google TPU сэкономил Midjourney $16.8M в год, Cerebras выдаёт в 8 раз больше токенов в секунду, чем топовые GPU NVIDIA. Groq убрал из архитектуры рантайм-планировщик и получил детерминированную латентность. SambaNova первым запустил крупнейшую open-source модель без единого GPU. А AWS построил крупнейший non-NVIDIA кластер - полмиллиона собственных чипов для Anthropic.

В этом докладе разберём, почему узкое место LLM-инференса - не вычислительная мощность, а пропускная способность памяти, и как нестандартные архитектуры - вафельные чипы, dataflow-процессоры, детерминированные стримеры - пытаются решить эту проблему в лоб.

Эдгар Сипки

SIPKI Technologies

gRPC & Open Source-евангелист, а также основатель Open Source-инструмента EasyP, Go-разработчик.