• Обсудим, какие этапы подготовки Pretrain-данных были пройдены ранее и почему потребовались новые улучшения.
• Расскажем о существующих методах фильтрации и представим новые подходы: инструктивные критерии, синтетика на основе QA и их комбинация.
• Покажем, как кластеризация текстов и перераспределение макротопиков помогают управлять тематическим балансом датасета.
• Опишем особенности адаптации фильтрации к русскоязычным данным и модификацию DCLM-пайплайна.
• Поделимся опытом фильтрации и аннотации кода: реализация пайплайна и влияние аннотированного кода на рост качества моделей.
• Расскажем о генерации синтетических LaTeX-данных и их влиянии на улучшение OCR-метрик в мультимодальных моделях.
• В завершение обсудим направления для дальнейшего развития Pretrain