Искусственный интеллект поможет отделам кадров городских и региональных администраций

В России нашли способ ускорить нейросети для генерации изображений

Исследователи Yandex Research и НИУ ВШЭ представили технику, которая сокращает время создания картинок нейросетями с нескольких секунд до 0,3–0,4 секунды. Разработка позволяет экономить время и при этом сохраняет качество готовых изображений.
Автор Наука Mail
Робот, иллюстрирующий искусственный интеллект
Время одной итерации обучения сокращается в 7 раз по сравнению с более сложными комбинированными подходами.Источник: Unsplash

Команда ученых Yandex Research и Национального исследовательского университета «Высшая школа экономики» предложила метод, который снижает вычислительные затраты и ускоряет генерацию изображений в диффузионных моделях без потери качества. В пресс-службе ВШЭ рассказали, что речь идет о моделях, которые сегодня задают стандарт в задачах генерации изображений, однако их использование ограничено высокой нагрузкой на вычисления, говорится в сообщении компании.

Разработанный метод (Scale-wise Distillation of Diffusion Models) SwD снижает вычислительную нагрузку при генерации изображений, что позволяет получать результат за 0,3–0,4 секунды. Обычно процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. При этом на ранних этапах формируется только общая структура изображения, а мелкие детали еще не различимы, поэтому часть вычислений оказывается избыточной. Предложенный учеными метод SwD решает эту проблему двумя способами. Во-первых, генерация начинается с низкого разрешения и постепенно уточняется по мере снижения шума — это исключает избыточные вычисления на ранних этапах. Во-вторых, метод использует дистилляцию уже обученных моделей, где более простая модель-студент учится воспроизводить результат сложной и сокращает число шагов генерации с десятков до 4–6.

Девушка смотри в экран телефона и генерирует изображение
Разработанный метод позволяет получать сгенерированное изображение за 0,3–0,4 секундыИсточник: Freepik

Как пояснил автор работы, обычно процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. При этом на ранних этапах формируется только общая структура изображения, а мелкие детали еще не различимы, поэтому часть вычислений оказывается избыточной.

В обучении используется новая функция потерь — Maximum Mean Discrepancy (MMD), разработанная авторами. Она сопоставляет то, как модель-учитель «воспринимает» изображение на внутренних слоях, с тем, как это же изображение представляет ученическая модель. В отличие от стандартных методов, здесь не нужны вспомогательные модели, что делает обучение проще и быстрее. MMD может выступать как самостоятельный способ дистилляции: эксперименты показали, что время одной итерации сокращается в семь раз по сравнению с более сложными комбинированными подходами. Как отмечается в сообщении, новый метод повышает доступность современных диффузионных моделей для практического использования.

Ранее японские и китайские ученые разработали улучшенную модель генерации зданий.