Local LLM-as-a-Judge, или как не платить по 20$ за метрику.
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
LLM-as-a-Judge стал стандартным инструментом оценки качества генераций языковых моделей, однако на практике он почти всегда опирается на закрытые API, что делает метрики дорогими, нестабильными и слабо воспроизводимыми. В докладе рассматривается задача оценки LLM как прикладная инженерная проблема и показывается, почему использование ChatGPT в роли Judge модели - лишь одна из возможных, но не обязательных опций.
Мы сравниваем несколько альтернативных подходов: локально развернутые открытые модели без дообучения, модели, дообученные на judge-генерациях ChatGPT, а также универсальную модель-оценщик, обученную на специально сконструированном датасете. В докладе демонстрируется, в каких сценариях локальный LLM-as-a-Judge даёт сопоставимое качество оценки, снижая стоимость и повышая воспроизводимость, и как выбрать подходящий вариант под реальные практические задачи.
Более 6 лет в IT и 5 лет в Machine Learning. На текущий момент являюсь Lead LLM Engineer команды Supervised FineTuning в GigaChat. Обучал огромные LLM модели на кластерах из тысяч GPU. Хобби - парфюмерия, рыбалка и велоспорт.
Видео
Другие доклады секции
Сбор Dataset