Эволюция pretrain-данных для Gigachat: методы и эксперименты

Обработка данных и бенчмарки

Аналитика / другое

Обработка данных

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе рассматриваются методы отбора и балансировки pretrain-данных для GigaChat, включая инструктивную фильтрацию, синтетику на основе QA и тематическую кластеризацию. Отдельное внимание уделено обработке текстов, кода и LaTeX и как эти данные влияют на качество моделей в LLM.

Целевая аудитория

Те, кто сами занимаются созданием или улучшением LLM.

Тезисы

Скачать презентацию Все презентации конференции

* Обсудим, какие этапы подготовки pretrain-данных были пройдены ранее и почему потребовались новые улучшения.
* Расскажем о существующих методах фильтрации и представим новые подходы: инструктивные критерии, синтетика и их комбинация.
* Покажем, как кластеризация текстов и перераспределение макротопиков помогают управлять тематическим балансом датасета.
* Опишем особенности адаптации фильтрации к русскоязычным данным и модификацию DCLM-пайплайна.
* Поделимся опытом фильтрации и аннотации кода: реализация пайплайна и влияние аннотированного кода на рост качества моделей.
* Расскажем о генерации синтетических LaTeX-данных и их влиянии на улучшение OCR-метрик в мультимодальных моделях.
* В завершение обсудим направления для дальнейшего развития pretrain.

Айнур Исрафилова

Сбер

Руководит командой качества данных в команде Pretrain Gigachat. Прошла путь в банке от стажера в команде валидации модельных рисков до тимлида в Gigachat. Закончила программу двух дипломов РЭШ и ШАД. В свободное время любит готовить и заниматься спортом.