Stable Diffusion в действии: как Ozon автоматизирует создание контента с помощью генерации одежды

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Stable Diffusion в виртуальной примерочной Ozon автоматизирует фото одежды, экономит продавцам деньги и время. Но как добиться точности (принты, надписи, позы) и скорости? Мария Щеголева расскажет про эволюцию пайплайна, свой датасет и битву за качество решении для тысяч продавцов.

Целевая аудитория

ML-инженеры, работающие с генеративными моделями; продакты, оценивающие применимость генеративных моделей для своих задач; тимлиды и техлиды, внедряющие R&D-разработки в продакшн.

Тезисы

Скачать презентацию Все презентации конференции

Ozon запустил сервис генерации фото одежды на человеке, который предоставляет продавцам возможность отказаться от профессиональной фотосъемки и сэкономить на создании фотоконтента для карточек товаров. Ядро сервиса — кастомный пайплайн на основе Stable-Diffusion-Inpainting-модели, модифицированный под решение задачи переноса одежды на человека (Virtual Try-On) и дообученный на датасете, собранном из изображений в карточках товаров, представленных на Ozon. Сервис работает в асинхронном режиме и интегрирован в процесс создания/редактирования товаров, не ухудшая целевые временные показатели бизнес-процесса.

В фокусе доклада:
* эволюция постановки задачи: от идеи «перенести любую одежду на любого человека» до строгих требований на множество обрабатываемых категорий одежды и поз для людей;
* архитектура ML-решения: как менялся пайплайн и сколько Diffusion-моделей нужно, чтобы точно воспроизводить не только базовую форму одежды, но и отличительные детали, в том числе принты и надписи;
* data-centric-подход: почему решили собирать собственный датасет, с какими сложностями столкнулись и почему правильная архитектура пайплайна — не единственный ключ к успеху;
* результаты и вызовы: какого качества уже сейчас удалось достичь и что еще нужно сделать, чтобы полностью отказаться от фотосъемки.

Мария Щеголева

Ozon

Ведущий разработчик ML с 6+ лет опыта в Data Science. Более 3 лет решает задачи компьютерного зрения в Ozon: разрабатывает системы автомодерации контента в условиях высоких realtime-нагрузок, создает генеративные модели для улучшения качества визуального контента. Специализируется на адаптации различных нейросетевых подходов в области компьютерного зрения под промышленные задачи. Лидирует техническую часть проекта генерации одежды со стороны ML-команды: от R&D до вывода сервиса в продакшн.