Диффузионные модели для мобильных телефонов

Компьютерное зрение и генерация изображений

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Коллеги из Huawei представят собственные исследования по работе с диффузионными моделями на мобильных устройствах. Покажут достаточность порядка 100М параметров для доменных задач генерации изображений и редактирования фотографий, приведут подходы к архитектурной оптимизации модели.

Целевая аудитория

Доклад будет интересен тем, кто интересуется генеративными моделями и их оптимизацией.

Тезисы

Скачать презентацию Все презентации конференции

Большие диффузионные модели продемонстрировали отличные возможности для генерации фотореалистичных изображений. Диффузионные модели, использующие текстовый запрос для условной генерации, позволяют пользователю получить разнообразные изображения из описания на естественном языке. Однако для решения конкретной бизнес-задачи очень большое разнообразие может не требоваться. Диффузионные модели имеют обычно порядка 1 миллиарда параметров и требуют значительных вычислительных ресурсов. Уменьшение покрытия диффузионной моделью различных объектов, тем и стилей к выбранному домену, позволит уменьшить размер модели и сократить вычислительные ресурсы и время для генерации.

Уменьшение и упрощение архитектуры диффузионной модели также облегчает её развёртывание на мобильных устройствах, что даёт следующие преимущества: отсутствие дорогостоящих серверов, улучшение приватности пользователей и возможность работать в офлайн-режиме.

В данной работе мы провели исследование с диффузионными моделями относительно небольшого размера и упрощенной архитектуры в выбранной доменной области — портретные изображения — и показали, что они могут соперничать с большими диффузионными моделями. Мы интегрировали нашу диффузионную модель в приложение для смартфонов, и продемонстрировали её практическое применение для редактирования фотографий, генерации аватаров и ассетов для дополненной реальности.

Дмитрий Нестеренко

Huawei

Инженер-исследователь в области компьютерного зрения. С 2022 года работает в Huawei. К. ф.-м. н.