Мнение Программного комитета о докладе
Поднимите руки, у кого детям LLMки домашку делают? А ведь, согласитесь, плохо пока делают, не все задачи правильно решают. А тут как раз история о том, как сделать шаг по пути прогресса!
Доклад принят в программу конференции
Поднимите руки, у кого детям LLMки домашку делают? А ведь, согласитесь, плохо пока делают, не все задачи правильно решают. А тут как раз история о том, как сделать шаг по пути прогресса!
Качество больших языковых моделей сильно зависит от масштаба и качества данных, а объём “хорошего” естественного текста ограничен. Поэтому всё чаще для обучения LLM используют синтетические данные — но вместе с этим появляется новая проблема: синтетику легко “нагенерировать”, а вот надёжно проверить её качество гораздо сложнее.
В докладе я расскажу про то, как мы построили конвейер генерации полностью синтетических задач по олимпиадному программированию и их автоматической валидации. По ходу работы мы придумали как с помощью LLM писать тесты, выстроили массовую проверку решений (сотни миллионов прогонов кода) и нашли способ надёжно отбраковывать задачи и решения в условиях, когда нет эталонных ответов. Итоговые данные мы использовали в претрейне GigaChat Ultra.
Занимаюсь подготовкой синтетических данных для pretraining GigaChat: генерация и контроль качества. Закончил ШАД, интересуюсь тем, как данные и архитектурные решения влияют на поведение больших моделей. Люблю собирать сложные агентные системы и превращать идеи в работающие пайплайны. В свободное время пишу музыку.
LLM
Прикладная конференция по Data Science
Прикладная конференция по Data Science
Варианты участия
Офлайн-участие
Стоимость конференции постоянно растет — чем ближе к мероприятию, тем дороже.
Текущая стоимость билета — 46000 ₽
Онлайн-участие
Все потоки с докладами (но не потоки с митапами) будут транслироваться нами онлайн.
Текущая стоимость билета — 23000 ₽
Корпоративное участие (от 10 билетов)
Для заказа от 10 билетов на очное или онлайн-участие, свяжитесь с нами по partners@ontico.ru.
Передумали покупать?
Расскажите, почему
Благодарим вас за ответ!
Прикладная конференция по Data Science
Видео, доступные к покупке
Видео AiConf 2024
26 и 27 сентября 2024
37500 ₽
Видео FrontendConf 2024
30 сентября 2024 и 1 октября 2024
37500 ₽
Видео Industrial++ 2024
21 и 22 октября 2024
37500 ₽
Видео TeamLead Conf++ 2024
27 и 28 ноября 2024
37500 ₽
Видео DevOpsConf 2025
7 и 8 апреля 2025
52500 ₽
Видео Knowledge Conf X 2025
2 июня 2025
21000 ₽
Видео Golang Conf X 2025
4 июня 2025
21000 ₽
Видео TechLead Conf X 2025
5 июня 2025
21000 ₽
Видео Saint HighLoad++ 2025
23 и 24 июня 2025
52500 ₽
Видео Saint TeamLead Conf 2025
26 и 27 июня 2025
52500 ₽
Видео TechFounders 2025
22 сентября 2025
21000 ₽
Видео Data Internals X 2025
23 сентября 2025
21000 ₽
Видео DevRelConf #9
24 сентября 2025
21000 ₽
Видео Industrial++ 2025
25 сентября 2025
21000 ₽
Видео AiConf X 2025
26 сентября 2025
21000 ₽
Видео FrontendConf 2025
20 и 21 октября 2025
44000 ₽
Видео HighLoad++ 2025
6 и 7 ноября 2025
52500 ₽
Видео TeamLead Conf 2025
10 и 11 ноября 2025
52500 ₽
Видео DevOpsConf 2026
2 апреля 2026
44500 ₽