Ozon запустил сервис генерации фото одежды на человеке, который предоставляет продавцам возможность отказаться от профессиональной фотосъёмки и сэкономить на создании фото-контента для карточек товаров. Ядро сервиса — кастомный пайплайн на основе Stable-Diffusion-Inpainting модели, модифицированный под решение задачи переноса одежды на человека (Virtual Try-On) и дообученный на датасете, собранном из изображений в карточках товаров, представленных на Ozon. Сервис работает в асинхронном режиме и интегрирован в процесс создания/редактирования товаров, не ухудшая целевые временные показатели бизнес-процесса.
В фокусе доклада:
- Эволюция постановки задачи: от идеи «перенести любую одежду на любого человека» до строгих требований на множество обрабатываемых категорий одежды и поз для людей.
- Архитектура ML-решения: как менялся пайплайн и сколько Diffusion-моделей нужно, чтобы точно воспроизводить не только базовую форму одежды, но и отличительные детали, в том числе принты и надписи.
- Data-centric подход: почему решили собирать собственный датасет, с какими сложностями столкнулись и почему правильная архитектура пайплайна не единственный ключ к успеху.
- Результаты и вызовы: какого качества уже сейчас удалось достичь и что еще нужно сделать, чтобы полностью отказаться от фотосъёмки.