AiConf

Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Готовим Text2SQL на «пятерку»: выжимаем максимум из опенсорсных моделей

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D

Доклад принят в программу конференции

Целевая аудитория

Этот доклад будет полезен для инженеров и исследователей, работающих с LLM, архитекторов данных в крупных компаниях, а также всех, кто решает задачи автоматизации работы с базами данных.

Тезисы

Цель Text2SQL — дать доступ к данным каждому: позволить тысячам пользователей получать аналитику простым вопросом на естественном языке без необходимости писать сложные SQL-запросы или ждать помощи специалистов. Однако на практике подключение даже продвинутых моделей к реальным корпоративным данным (сложные схемы, сотни таблиц, специфичная логика) сразу выявляет проблемы: низкая точность, непонимание контекста бизнеса, критические ошибки в запросах.

В своем выступлении я разберу наш путь от этих вызовов к эффективному решению:
* как оценить качество: метрики и почему базовые подходы не работают на реальных корпоративных данных;
* данные для обучения: где взять и как разметить обучающие данные для дообучения под специфику бизнеса;
* трюки для улучшения рассуждений модели: применяем Chain-of-Thought, гибридные RAG (с Column/Value Retriever) и агентские подходы для повышения точности и понимания схемы.

Ведущий ML-инженер с опытом более 6 лет в сфере Data Science и NLP, разрабатывает решение для задачи Text2SQL, в свободное время играет в шахматы и занимается скалолазанием.

Видео

Другие доклады секции

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D