Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Разметка датасетов в эпоху мультимодальности: проблемы, вызовы, решения

Прочее

Продуктовая разработка
Управление изменениями, управление требованиями
Machine Learning
ML
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Дмитрий проведет слушателей через систему подготовки размеченных мультимодальных данных. От парсинга интернета через кейсы мультимодальной разметки; через использование вспомогательных моделей, в том числе LLM; через бизнес-процессы и контроль качества разметки к финальным метрикам моделей.

Целевая аудитория

DS/DE/ML-инженеры, их руководители и все, кто связан с разметкой данных и подготовкой датасетов.

Тезисы

Датасеты — топливо для моделей, и важно готовить их качественно. В докладе на основе опыта работы над GigaChat, Kandinsky и другими проектами я расскажу об основных задачах разметки в эпоху мультимодальности: текста, аудио, картинок и видео, приведу кейсы реальной жизни и поделюсь, как спарсить что угодно и генерировать данные из необычных мест. Расскажу, как мультимодальность меняет смысл задач и почему для хорошего результата нужна глубокая техническая подготовка.

Особое внимание уделю авторазметке и разметке через LLM во всех трех вариантах, нюансам работы со всеми типами разметчиков и разберу пайплайны создания идеальных датасетов: от постановки ML-задачи до контроля и получения итогового результата.

Мастер спорта по AI-first разработке и энтерпрайз вайб-кодингу: люблю копаться внутри технологий и тулинга кодогенерации, строить evals/harness, считать экономику и реальную эффективность команд в пост-LLM эпоху и участвовать в пересборке того, как вообще будут выглядеть процессы создания продуктов в новой реальности.

Обожаю GenAI. Глубоко разбираюсь в AI-агентах и их внедрении в сложные бизнес-процессы (аналитика, обработка документов, описание данных). Руковожу разработкой и продуктизацией LLM-based/AI-продуктов, одинаково хорошо понимаю инженеров и бизнес-заказчиков.

Верю в голос как интерфейс и автономные системы с минимальным участием в них человека.

Видео