AiConf

Панельная дискуссия "Оценка LLM-моделей: почему бенчмаркам нельзя верить"

Обработка данных и бенчмарки

ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Панельная дискуссия посвящена критике существующих бенчмарков для оценки LLM: они плохо коррелируют с реальной производительностью моделей. Участники обсудят, как переобучение на синтетических датасетах и устаревшие метрики мешают развитию, и предложат альтернативы в виде открытых

Целевая аудитория

Разработчики и исследователи в области машинного обучения, датасаентисты, датаинженеры, исследователи.

Тезисы

Современные бенчмарки (MMLU, MMMU, GLUE и т.д.) не отражают реальную эффективность LLM в продакшн-средах — они измеряют узкие навыки на академических данных, игнорируя контекст и мультимодальность. Модели, лидирующие на лидербордах, проваливаются на простых пользовательских запросах из-за переобучения на «игрушечных» датасетах. Мультимодальные задачи (текст+изображение) усугубляют проблему: метрики для генерации описаний не учитывают семантическую согласованность. Одно из решений — открытые стресс-тесты в духе соревнования на арене, где модели соревнуются в реальных диалогах, а не на синтетике. Ведущие исследователи из разных компаний постараются ответить на самые интересные вопросы!

Руководит исследовательскими ML-командами в SberDevices. В прошлом инженер-железячник в области цифровой обработки сигналов на FPGA и ASIC, в частности, для обработки изображений и звука. Автор топовых лекций по обработке сигналов и регулярный спикер на научно-технических конференциях. Активный контрибьютор в Open Source.

Team Lead AGI NLP, R&D SberDevices.

Автор LLM-бенчмарка llmarena.ru. Преподаватель краудсорсинга в ШАДе, ВШЭ, МФТИ. Ex-Founder & ex-CTO TrainingData.ru.

Видео