
Команда ученых Yandex Research и Национального исследовательского университета «Высшая школа экономики» предложила метод, который снижает вычислительные затраты и ускоряет генерацию изображений в диффузионных моделях без потери качества. В пресс-службе ВШЭ рассказали, что речь идет о моделях, которые сегодня задают стандарт в задачах генерации изображений, однако их использование ограничено высокой нагрузкой на вычисления, говорится в сообщении компании.
Разработанный метод (Scale-wise Distillation of Diffusion Models) SwD снижает вычислительную нагрузку при генерации изображений, что позволяет получать результат за 0,3–0,4 секунды. Обычно процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. При этом на ранних этапах формируется только общая структура изображения, а мелкие детали еще не различимы, поэтому часть вычислений оказывается избыточной. Предложенный учеными метод SwD решает эту проблему двумя способами. Во-первых, генерация начинается с низкого разрешения и постепенно уточняется по мере снижения шума — это исключает избыточные вычисления на ранних этапах. Во-вторых, метод использует дистилляцию уже обученных моделей, где более простая модель-студент учится воспроизводить результат сложной и сокращает число шагов генерации с десятков до 4–6.

Как пояснил автор работы, обычно процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. При этом на ранних этапах формируется только общая структура изображения, а мелкие детали еще не различимы, поэтому часть вычислений оказывается избыточной.
В обучении используется новая функция потерь — Maximum Mean Discrepancy (MMD), разработанная авторами. Она сопоставляет то, как модель-учитель «воспринимает» изображение на внутренних слоях, с тем, как это же изображение представляет ученическая модель. В отличие от стандартных методов, здесь не нужны вспомогательные модели, что делает обучение проще и быстрее. MMD может выступать как самостоятельный способ дистилляции: эксперименты показали, что время одной итерации сокращается в семь раз по сравнению с более сложными комбинированными подходами. Как отмечается в сообщении, новый метод повышает доступность современных диффузионных моделей для практического использования.
Ранее японские и китайские ученые разработали улучшенную модель генерации зданий.

