Как мы внедрили LLM-судей в автоматизациях клиентского сервиса: подход, грабли, уроки

Продуктизация AI-решений

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад Даши — про то, как внедрить LLM-судей в свои пайплайны, и про все грабельки, которые на этом пути поджидают: с чего начать, как мерить качество и как читать трейсы. В конце — готовый чек-лист для запуска у себя.

Целевая аудитория

Аналитики, LLM-инженеры, менеджеры GenAI продуктов, Data Scientist'ы.

Тезисы

Скачать презентацию Все презентации конференции

Автоматизации в клиентском сервисе — чат-боты и подсказки оператору — быстро развиваются, но их качество сложно мониторить: ручная разметка дорогая, а продуктовые метрики (AHT/CSAT) не позволяют найти инсайтов, обнаружить систематические проблемы.

В докладе я расскажу, как мы построили систему LLM-судей, которая оценивает весь прод-поток и формирует на дашбордах метрики качества по ключевым критериям, а небольшую долю запросов параллельно проверяют эксперты — для калибровки и контроля судьи.

Разберем, какие критерии реально работают для оценки чат-ботов и GPT-ассистентов, как подбирать промпты для судьи, что стоит / не стоит показывать судье (контекст, логи, мету). Поделюсь практическими приемами, схемой пайплайна, а также набором граблей и решений, которые помогли сделать систему стабильной и полезной для продуктовой команды. Также поговорим про то, какие глобально есть best practice и тренды по настройке LLM-судей, что из этого мы пробовали и какие результаты получили.

Дарья Шатько

Yandex Crowd Solutions

6 лет в Data Science, 3 года тимлид, последние 1,5 года руководит ML-группой в Яндекс Крауд. Начинала в McKinsey в направлении Advanced Analytics, делала несколько крупных проектов в области рекомендаций и персонализации промо в ретейле (в РФ и за рубежом). Перешла тимлидом в МегаФон, настраивали рекомендации по тарифным планам, под конец перешла в роль руководителя 4-х тимлидов. В апреле прошлого года пришла в Yandex Crowd тимлидом в команду из 11 человек (сейчас их уже 15). Вместе с командой настраивают автоматизацию разметок, создают чат-ботов, строят копайлоты для краудсорс-исполнителей. Их проекты — интеграционные, делают фичи для платформ Yandex Crowd. Ведут проекты от стадии RnD до выкатки в прод и дальнейшей поддержки.
В свободное время танцует аргентинское танго, путешествует.