Датасеты — топливо для моделей, и важно готовить их качественно. В докладе на основе опыта работы над GigaChat, Kandinsky и другими проектами я расскажу об основных задачах разметки в эпоху мультимодальности: текста, аудио, картинок и видео, приведу кейсы реальной жизни и поделюсь, как спарсить что угодно и генерировать данные из необычных мест. Расскажу, как мультимодальность меняет смысл задач и почему для хорошего результата нужна глубокая техническая подготовка.
Особое внимание уделю авторазметке и разметке через LLM во всех трех вариантах, нюансам работы со всеми типами разметчиков и разберу пайплайны создания идеальных датасетов: от постановки ML-задачи до контроля и получения итогового результата.