AiConf

Эволюция Pretrain данных для Gigachat: методы и эксперименты

Обработка данных и бенчмарки

Аналитика / другое
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе рассматриваются методы отбора и балансировки pretrain-данных для GigaChat, включая инструктивную фильтрацию, синтетику на основе QA и тематическую кластеризацию. Отдельное внимание уделено обработке текстов, кода и LaTeX и как эти данные влияют на качество моделей в LLM.

Целевая аудитория

Те, кто сами занимаются над созданием или улучшением LLM.

Тезисы

• Обсудим, какие этапы подготовки Pretrain-данных были пройдены ранее и почему потребовались новые улучшения.
• Расскажем о существующих методах фильтрации и представим новые подходы: инструктивные критерии, синтетика на основе QA и их комбинация.
• Покажем, как кластеризация текстов и перераспределение макротопиков помогают управлять тематическим балансом датасета.
• Опишем особенности адаптации фильтрации к русскоязычным данным и модификацию DCLM-пайплайна.
• Поделимся опытом фильтрации и аннотации кода: реализация пайплайна и влияние аннотированного кода на рост качества моделей.
• Расскажем о генерации синтетических LaTeX-данных и их влиянии на улучшение OCR-метрик в мультимодальных моделях.
• В завершение обсудим направления для дальнейшего развития Pretrain

Айнур Исрафилова

Сбердевайсы

Руковожу командой качества данных в команде Pretrain Gigachat. Прошла путь в банке от стажера в команде валидации модельных рисков до тимлида в Gigachat. Закончила программу двух дипломов РЭШ и ШАД. В свободное время люблю готовить и заниматься спортом)

Видео