* Обсудим, какие этапы подготовки pretrain-данных были пройдены ранее и почему потребовались новые улучшения.
* Расскажем о существующих методах фильтрации и представим новые подходы: инструктивные критерии, синтетика и их комбинация.
* Покажем, как кластеризация текстов и перераспределение макротопиков помогают управлять тематическим балансом датасета.
* Опишем особенности адаптации фильтрации к русскоязычным данным и модификацию DCLM-пайплайна.
* Поделимся опытом фильтрации и аннотации кода: реализация пайплайна и влияние аннотированного кода на рост качества моделей.
* Расскажем о генерации синтетических LaTeX-данных и их влиянии на улучшение OCR-метрик в мультимодальных моделях.
* В завершение обсудим направления для дальнейшего развития pretrain.