AiConf

Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Разметка датасетов в эпоху мультимодальности: проблемы, вызовы, решения

Прочее

Продуктовая разработка
Управление изменениями, управление требованиями
Machine Learning
ML
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Дмитрий проведет слушателей через систему подготовки размеченных мультимодальных данных. От парсинга интернета через кейсы мультимодальной разметки; через использование вспомогательных моделей, в том числе LLM; через бизнес-процессы и контроль качества разметки к финальным метрикам моделей.

Целевая аудитория

DS/DE/ML-инженеры, их руководители и все, кто связан с разметкой данных и подготовкой датасетов.

Тезисы

Датасеты — топливо для моделей, и важно готовить их качественно. В докладе на основе опыта работы над GigaChat, Kandinsky и другими проектами я расскажу об основных задачах разметки в эпоху мультимодальности: текста, аудио, картинок и видео, приведу кейсы реальной жизни и поделюсь, как спарсить что угодно и генерировать данные из необычных мест. Расскажу, как мультимодальность меняет смысл задач и почему для хорошего результата нужна глубокая техническая подготовка.

Особое внимание уделю авторазметке и разметке через LLM во всех трех вариантах, нюансам работы со всеми типами разметчиков и разберу пайплайны создания идеальных датасетов: от постановки ML-задачи до контроля и получения итогового результата.

Помогает Сберу делать его флагманский ИИ лучше: создают инструменты для DS-/ML-команд, позволяющие быстро и максимально качественно готовить данные практически любой сложности.

Видео