Массивы данных: от унаследованного кода до работающей модели

О стриме развития

Стримы развития — это срежиссированные тематические маршруты по конференции

Программа стрима

Всё необходимое для глубокого погружения в тему

20 апреля, 10:00 - 12:00, Зал Аудитория 5

💻 Мастер-класс «Собираем датасет для ML в 2026 году»

Пожалуйста, обратите внимание: видеотрансляция и запись мастер-класса вестись не будут.

В мастер-классе мы пройдем путь от идеи до работающей модели сегментации изображений. В том числе мы научимся работать с проектами в Яндекс Заданиях, подготовим датасет руками исполнителей, подключим к разметке GPT.

Важно! Для участия в данном формате с собой необходимо иметь ноутбук.

Всеволод Мещеряков

Yandex Crowd Solutions

20 апреля, 12:20 - 13:10, Зал Аудитория 6

Как мы внедрили LLM-судей в автоматизациях клиентского сервиса: подход, грабли, уроки

Автоматизации в клиентском сервисе — чат-боты и подсказки оператору — быстро развиваются, но их качество сложно мониторить: ручная разметка дорогая, а продуктовые метрики (AHT/CSAT) не позволяют найти инсайтов, обнаружить систематические проблемы.

В докладе я расскажу, как мы построили систему LLM-судей, которая оценивает весь прод-поток и формирует на дашбордах метрики качества по ключевым критериям, а небольшую долю запросов параллельно проверяют эксперты — для калибровки и контроля судьи.

Разберем, какие критерии реально работают для оценки чат-ботов и GPT-ассистентов, как подбирать промпты для судьи, что стоит / не стоит показывать судье (контекст, логи, мету). Поделюсь практическими приемами, схемой пайплайна, а также набором граблей и решений, которые помогли сделать систему стабильной и полезной для продуктовой команды. Также поговорим про то, какие глобально есть best practice и тренды по настройке LLM-судей, что из этого мы пробовали и какие результаты получили.

Дарья Шатько

Yandex Crowd Solutions

20 апреля, 13:30 - 13:50, Зал Малый

Как смотреть на табличные данные: подвыборки и метахарактеристики вместо отдельных объектов

Табличные данные — один из самых распространенных форматов в машинном обучении, однако до сих пор не существует устойчивого и универсального способа «смотреть» на них. В отличие от изображений или текста, отдельный объект табличного датасета редко несет самостоятельную семантическую нагрузку.

В этом докладе я покажу, почему point-wise-взгляд на табличные данные может быть неэффективен, и предложу альтернативу: рассматривать подвыборки данных и их метахарактеристики как основной объект анализа. Мы обсудим, как такие представления позволяют: лучше описывать структуру данных, выявлять скрытые сдвиги распределений, строить более реалистичные тесты для оценки устойчивости моделей.

Подход будет проиллюстрирован на задаче out-of-distribution (OOD) тестирования, где подвыборки с контролируемыми метахарактеристиками позволяют заранее оценивать деградацию качества моделей — даже при отсутствии реальных OOD-данных.

Ирина Деева

Университет ИТМО

20 апреля, 13:50 - 14:10, Зал Малый

Синтетические задачи в стиле Codeforces для претрейна GigaChat

Качество больших языковых моделей сильно зависит от масштаба и качества данных, а объем «хорошего» естественного текста ограничен. Поэтому все чаще для обучения LLM используют синтетические данные — но вместе с этим появляется новая проблема: синтетику легко «нагенерировать», а вот надежно проверить ее качество гораздо сложнее.

В докладе я расскажу про то, как мы построили конвейер генерации полностью синтетических задач по олимпиадному программированию и их автоматической валидации. По ходу работы мы придумали как с помощью LLM писать тесты, выстроили массовую проверку решений (сотни миллионов прогонов кода) и нашли способ надежно отбраковывать задачи и решения в условиях, когда нет эталонных ответов. Итоговые данные мы использовали в претрейне GigaChat Ultra.

Данил Сахаров

Сбер

20 апреля, 14:10 - 14:30, Зал Малый

Контент-маркетинг в эпоху ИИ: как мы делаем YouTube-ролики на 600+ тысяч просмотров

Как мы потратили 1 000 000 ₽ на ютуб-продюсера и получили нулевой результат.
Как мы используем ИИ на каждом этапе YouTube-контента: темы, сценарии, обложки, монтаж, описания, звук и рилсы.
ИИ в исследовании ЦА и тем: как понять, что и для кого снимать. Промпты для анализа боли, конкурентов и трендов.
Разбор кейса: ролики на 500–600 тыс. просмотров. Кейс нашего канала @SkobeevDigital (YouTube) и других каналов, которые ведем.
Профит для бизнеса и монетизация: как получать лиды и сколько можно заработать на рекламе в канале.
Работающие промпты: как писать сценарии с ИИ. Готовые промпты для развлекательных и экспертных роликов.
Карта контент-завода: как масштабировать один ролик в 10 единиц контента. Гайды, статьи, соцсети, чек-листы — все из одного источника.
Как создать под эти задачи ИИ-ботов и помощников.
Что можно внедрить уже сегодня. Чек-лист: ИИ и боты под задачи YouTube.

Денис Сорокин

Скобеев и Партнеры

20 апреля, 14:30 - 14:50, Зал Малый

ML-анализ видео в Crowd, или Как решать задачу трекинга без явного таргета

Во многих областях разметки активно применяются генеративные модели ИИ. Однако в анализе видео такие модели пока уступают классическим алгоритмам компьютерного зрения — особенно когда у задачи нет явного целевого объекта для трекинга.

На примере кейса из Crowd(а) разберем устройство автоматизированного пайплайна для разметки видео и ключевые компоненты кастомного алгоритма трекинга. Кроме того, я рассмотрю «грабли», на которые мы наступили, и покажу, как нам удалось ускорить разметку видео с 7 часов до 30 минут.

Николай Курбатов

Яндекс

20 апреля, 14:50 - 15:10, Зал Малый

Разметка против реальности: как фрод выявляет слабые места датасета

В задачах с пользовательскими данными датасет быстро теряет актуальность: появляются новые сценарии, фрод и неоднозначные кейсы, с которыми разметка не всегда справляется. На примере фотоконтроля курьеров покажу, как выстраивается процесс разметки и дообогащения данных и почему датасет становится ключевой частью ML-системы.

Виктория Костерина (Тюфякова)

Magnit OMNI

Форматы

Краткий гид по форматам в программе

Классический рассказ в лекционном формате.

Практика, в рамках которой докладчик шаг за шагом показывает решение рабочей задачи или обучающий кейс, а участники слушают и, возможно, выполняют задания самостоятельно или в командах.

Короткие доклады до 20 минут — отдельные или объединенные общей темой.

Несколько экспертов обсуждают острую тему со сцены. Остальные наблюдают. Любой из зала может задать вопрос или предложить решение, если хочет внести вклад.

Мы делим участников на несколько тематических групп.

У каждой группы своя подтема (что именно аргументировать, кому именно аргументировать - разделённые по какому-то принципу). Группы обсуждают, может быть играют в имитационную игру, где пробуют свои аргументы в бою, затем кто-то от каждой группы делает доклад на 10 минут уже для всей аудитории. В конце выбираем самую полезную группу.

Это сессия ответов на наиболее интересные в секции вопросы от представителей разных отраслей и компаний. Честно, аргументированно и "без купюр".