Синтетические задачи в стиле Codeforces для претрейна GigaChat

LLM

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Поднимите руки, у кого детям LLMки домашку делают? А ведь, согласитесь, плохо пока делают, не все задачи правильно решают. А тут как раз история о том, как сделать шаг по пути прогресса!

Целевая аудитория

ML/LLM-инженеры и исследователи, которые готовят данные для обучения LLM; data-инженеры и специалисты по качеству данных; разработчики, интересующиеся олимпиадным программированием.

Тезисы

Скачать презентацию Все презентации конференции

Качество больших языковых моделей сильно зависит от масштаба и качества данных, а объем «хорошего» естественного текста ограничен. Поэтому все чаще для обучения LLM используют синтетические данные — но вместе с этим появляется новая проблема: синтетику легко «нагенерировать», а вот надежно проверить ее качество гораздо сложнее.

В докладе я расскажу про то, как мы построили конвейер генерации полностью синтетических задач по олимпиадному программированию и их автоматической валидации. По ходу работы мы придумали как с помощью LLM писать тесты, выстроили массовую проверку решений (сотни миллионов прогонов кода) и нашли способ надежно отбраковывать задачи и решения в условиях, когда нет эталонных ответов. Итоговые данные мы использовали в претрейне GigaChat Ultra.

Данил Сахаров

Сбер

Занимается подготовкой синтетических данных для pretraining GigaChat: генерация и контроль качества. Закончил ШАД, интересуется тем, как данные и архитектурные решения влияют на поведение больших моделей. Любит собирать сложные агентные системы и превращать идеи в работающие пайплайны. В свободное время пишет музыку.