MERA.Text.v.1.2.0. Что под капотом нового релиза?

Академические исследования

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Разработка метрик качества для продукта, где используется машинное обучение, всегда была интересной и непростой задачей. Разработка бенчмарка для LLM — задача особенно сложная из-за сложности измеряемого объекта. Алёна поделится тем, как эту задачу решили в MERA.

Целевая аудитория

NLP-инженеры, разработчики и исследователи LLMs, способов бенчмаркинга и оценки фундаментальных моделей.

Тезисы

Скачать презентацию Все презентации конференции

MERA — инструктивный бенчмарк для оценки современных SOTA-моделей для русского языка. Бенчмарк был создан как независимый проект в ноябре прошлого года, с тех пор мы собрали множество обратной связи и пожеланий по его улучшению и справедливой оценке.

Мы представляем обновление текстовой версии бенчмарка, куда вошли: динамический лидерборд, новая кодовая база замеров по генеративному методу и с учетом систем промптов, обновление сетов и промптовой базы к ним, автоматическая проверка логов и многое другое.

В докладе подробно поговорим об ограничениях первой версии, как мы их решили, расскажем о новых функциях лидерборда и результатах моделей.

Алена Феногенова

Сбер

Team Lead AGI NLP, R&D SberDevices.