Мнение Программного комитета о докладе
В докладе рассматриваются методы отбора и балансировки pretrain-данных для GigaChat, включая инструктивную фильтрацию, синтетику на основе QA и тематическую кластеризацию. Отдельное внимание уделено обработке текстов, кода и LaTeX и как эти данные влияют на качество моделей в LLM.