MERA — инструктивный бенчмарк для оценки современных SOTA-моделей для русского языка. Бенчмарк был создан как независимый проект в ноябре прошлого года, с тех пор мы собрали множество обратной связи и пожеланий по его улучшению и справедливой оценке.
Мы представляем обновление текстовой версии бенчмарка, куда вошли: динамический лидерборд, новая кодовая база замеров по генеративному методу и с учетом систем промптов, обновление сетов и промптовой базы к ним, автоматическая проверка логов и многое другое.
В докладе подробно поговорим об ограничениях первой версии, как мы их решили, расскажем о новых функциях лидерборда и результатах моделей.