Побеждают ли диффузионные модели генеративные состязательные сети в задаче повышения разрешения?

Компьютерное зрение и генерация изображений

Machine Learning

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад посвящён построению ряда экспериментов по сравнению диффузионных и GAN-подходов в задаче повышения разрешения при одинаковых условиях в смысле обучения/тестирования моделей. Авторы ставят эксперименты, фиксируя данные, размеры моделей, что позволяет проводить корректное сопоставление.

Целевая аудитория

В первую очередь доклад будет интересен специалистам в области компьютерного зрения. Также тема и содержание рассказа могут быть интересны и доступны исследователям и практикам из других направлений машинного обучения.

Тезисы

Скачать презентацию Все презентации конференции

В современной литературе преобладает мнение, что диффузионные модели работают однозначно лучше, чем генеративные состязательные сети (GAN'ы) в задаче повышения разрешения (Image Super Resolution). Однако в большинстве сравнений диффузионные модели на порядок превосходят подходы, основанные на GAN'ах, по размеру и величине затраченных ресурсов. Отсюда возникает предположение, что превосходство диффузионных моделей может быть обусловлено большим масштабом моделей и данных, а не превосходством самой парадигмы.

В нашей работе мы впервые проводим контролируемое исследование, в котором диффузионные модели и GAN'ы выровнены по размеру моделей и объёму затраченных на их обучение вычислительных ресурсов, и показываем, что GAN'ы достигают результатов не хуже, чем диффузионные модели. Кроме того, мы исследуем влияние различных факторов, таких как обусловливание на текст и аугментация изображений, на качество работы моделей повышения разрешения.

Денис Кузнеделев

Яндекс

Исследователь в области глубокого обучения, область интересов — ускорение и сжатие нейросетей, компьютерное зрение.