AiConf

Готовим Text2SQL на «Пятёрку»: выжимаем максимум из опенсорсных моделей

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D

Доклад принят в программу конференции

Целевая аудитория

Этот доклад будет полезен для инженеров и исследователей, работающих с LLM, архитекторов данных в крупных компаниях, а также всех, кто решает задачи автоматизации работы с базами данных

Тезисы

Цель Text2SQL — дать доступ к данным каждому:
позволить тысячам пользователей получать аналитику простым вопросом на естественном языке, без необходимости писать сложные SQL-запросы или ждать помощи специалистов. Однако на практике подключение даже продвинутых моделей к реальным корпоративным данным (сложные схемы, сотни таблиц, специфичная логика) сразу выявляет проблемы: низкая точность, непонимание контекста бизнеса, критические ошибки в запросах.

В своем выступлении я разберу наш путь от этих вызовов к эффективному решению:
- Как оценить качество? Метрики и почему базовые подходы не работают на реальных корпоративных данных.
- Данные для обучения: Где взять и как разметить обучающие данные для дообучения под специфику бизнеса.
- Трюки для улучшения рассуждений модели: Применяем Chain-of-Thought, гибридные RAG (с Column/Value Retriever) и агентские подходы для повышения точности и понимания схемы

Ведущий ML-инженер с опытом более 6 лет в сфере Data Science и NLP, разрабатываю решение для задачи text2sql, в свободное время играю в шахматы и занимаюсь скалолазанием

Видео

Другие доклады секции

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D