Современные бенчмарки (MMLU, MMMU, GLUE и т.д.) не отражают реальную эффективность LLM в продакшн-средах — они измеряют узкие навыки на академических данных, игнорируя контекст и мультимодальность. Модели, лидирующие на лидербордах, проваливаются на простых пользовательских запросах из-за переобучения на «игрушечных» датасетах. Мультимодальные задачи (текст+изображение) усугубляют проблему: метрики для генерации описаний не учитывают семантическую согласованность. Одно из решений — открытые стресс-тесты в духе соревнования на арене, где модели соревнуются в реальных диалогах, а не на синтетике. Ведущие исследователи из разных компаний постараются ответить на самые интересные вопросы!