Готовим Text2SQL на «Пятёрку»: выжимаем максимум из опенсорсных моделей
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Цель Text2SQL — дать доступ к данным каждому:
позволить тысячам пользователей получать аналитику простым вопросом на естественном языке, без необходимости писать сложные SQL-запросы или ждать помощи специалистов. Однако на практике подключение даже продвинутых моделей к реальным корпоративным данным (сложные схемы, сотни таблиц, специфичная логика) сразу выявляет проблемы: низкая точность, непонимание контекста бизнеса, критические ошибки в запросах.
В своем выступлении я разберу наш путь от этих вызовов к эффективному решению:
- Как оценить качество? Метрики и почему базовые подходы не работают на реальных корпоративных данных.
- Данные для обучения: Где взять и как разметить обучающие данные для дообучения под специфику бизнеса.
- Трюки для улучшения рассуждений модели: Применяем Chain-of-Thought, гибридные RAG (с Column/Value Retriever) и агентские подходы для повышения точности и понимания схемы
Ведущий ML-инженер с опытом более 6 лет в сфере Data Science и NLP, разрабатываю решение для задачи text2sql, в свободное время играю в шахматы и занимаюсь скалолазанием
Видео
Другие доклады секции
GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D