В современной литературе преобладает мнение, что диффузионные модели работают однозначно лучше, чем генеративные состязательные сети (GAN'ы) в задаче повышения разрешения (Image Super Resolution). Однако в большинстве сравнений диффузионные модели на порядок превосходят подходы, основанные на GAN'ах, по размеру и величине затраченных ресурсов. Отсюда возникает предположение, что превосходство диффузионных моделей может быть обусловлено большим масштабом моделей и данных, а не превосходством самой парадигмы.
В нашей работе мы впервые проводим контролируемое исследование, в котором диффузионные модели и GAN'ы выровнены по размеру моделей и объёму затраченных на их обучение вычислительных ресурсов, и показываем, что GAN'ы достигают результатов не хуже, чем диффузионные модели. Кроме того, мы исследуем влияние различных факторов, таких как обусловливание на текст и аугментация изображений, на качество работы моделей повышения разрешения.