AiConf

Stable Diffusion в действии: как Ozon автоматизирует создание контента с помощью генерации одежды

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D

Доклад принят в программу конференции

Целевая аудитория

ML-инженеры, работающие с генеративными моделями; продакты, оценивающие применимость генеративных моделей для своих задач; тимлиды и техлиды, внедряющие R&D-разработки в продакшн

Тезисы

Ozon запустил сервис генерации фото одежды на человеке, который предоставляет продавцам возможность отказаться от профессиональной фотосъёмки и сэкономить на создании фото-контента для карточек товаров. Ядро сервиса — кастомный пайплайн на основе Stable-Diffusion-Inpainting модели, модифицированный под решение задачи переноса одежды на человека (Virtual Try-On) и дообученный на датасете, собранном из изображений в карточках товаров, представленных на Ozon. Сервис работает в асинхронном режиме и интегрирован в процесс создания/редактирования товаров, не ухудшая целевые временные показатели бизнес-процесса.

В фокусе доклада:
- Эволюция постановки задачи: от идеи «перенести любую одежду на любого человека» до строгих требований на множество обрабатываемых категорий одежды и поз для людей.
- Архитектура ML-решения: как менялся пайплайн и сколько Diffusion-моделей нужно, чтобы точно воспроизводить не только базовую форму одежды, но и отличительные детали, в том числе принты и надписи.
- Data-centric подход: почему решили собирать собственный датасет, с какими сложностями столкнулись и почему правильная архитектура пайплайна не единственный ключ к успеху.
- Результаты и вызовы: какого качества уже сейчас удалось достичь и что еще нужно сделать, чтобы полностью отказаться от фотосъёмки.

Ведущий разработчик ML с 6+ лет опыта в Data Science. Более 3 лет решаю задачи компьютерного зрения в Ozon: разрабатываю системы автомодерации контента в условиях высоких realtime-нагрузок, создаю генеративные модели для улучшения качества визуального контента. Специализируюсь на адаптации различных нейросетевых подходов в области компьютерного зрения под промышленные задачи. Лидирую техническую часть проекта генерации одежды со стороны ML-команды: от R&D до вывода сервиса в продакшн.

Видео

Другие доклады секции

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D