Автоматизации в клиентском сервисе — чат-боты и подсказки оператору — быстро развиваются, но их качество сложно мониторить: ручная разметка дорогая, а продуктовые метрики (AHT/CSAT) не позволяют найти инсайтов, обнаружить систематические проблемы.
В докладе я расскажу, как мы построили систему LLM-судей, которая оценивает весь прод-поток и формирует на дашбордах метрики качества по ключевым критериям, а небольшую долю запросов параллельно проверяют эксперты — для калибровки и контроля судьи.
Разберем, какие критерии реально работают для оценки чат-ботов и GPT-ассистентов, как подбирать промпты для судьи, что стоит / не стоит показывать судье (контекст, логи, мету). Поделюсь практическими приемами, схемой пайплайна, а также набором граблей и решений, которые помогли сделать систему стабильной и полезной для продуктовой команды. Также поговорим про то, какие глобально есть best practice и тренды по настройке LLM-судей, что из этого мы пробовали и какие результаты получили.