Большие диффузионные модели продемонстрировали отличные возможности для генерации фотореалистичных изображений. Диффузионные модели, использующие текстовый запрос для условной генерации, позволяют пользователю получить разнообразные изображения из описания на естественном языке. Однако для решения конкретной бизнес-задачи очень большое разнообразие может не требоваться. Диффузионные модели имеют обычно порядка 1 миллиарда параметров и требуют значительных вычислительных ресурсов. Уменьшение покрытия диффузионной моделью различных объектов, тем и стилей к выбранному домену, позволит уменьшить размер модели и сократить вычислительные ресурсы и время для генерации.
Уменьшение и упрощение архитектуры диффузионной модели также облегчает её развёртывание на мобильных устройствах, что даёт следующие преимущества: отсутствие дорогостоящих серверов, улучшение приватности пользователей и возможность работать в офлайн-режиме.
В данной работе мы провели исследование с диффузионными моделями относительно небольшого размера и упрощенной архитектуры в выбранной доменной области — портретные изображения — и показали, что они могут соперничать с большими диффузионными моделями. Мы интегрировали нашу диффузионную модель в приложение для смартфонов, и продемонстрировали её практическое применение для редактирования фотографий, генерации аватаров и ассетов для дополненной реальности.