Новый метод, который делает создание видео быстрым и простым

Американские ученые из MIT и Adobe представили гибридную нейросеть, способную создавать реалистичные видеоролики за считанные секунды. Это шаг к более быстрому и гибкому производству видео по текстовому запросу.

Владимир Барышев

Автор Наука Mail

ТВ с анимационным фильмом — CausVid сочетает в себе передовые диффузионные и автоагрессивные модели, позволяя создавать видео с невиданной ранее скоростью и качеством, открывая новые горизонты в области искусственного интеллектаИсточник: Unsplash

Исследование, опубликованное на препринт-сервере arXiv, представлено учеными Массачусетского технологического института, MIT, и лаборатории Adobe Research. Они разработали нейросетевую систему CausVid. Программа объединяет в себе два подхода: мощную модель диффузии для создания видео и автоагрессивную архитектуру для генерации текста. Эта гибридная система в разы ускоряет генерацию видео с высоким качеством и стабильностью изображения.

Диффузионные модели, такие как SORA от OpenAI и VEO 2 от Google, обрабатывают сразу весь видеоряд. Это дает фотореалистичный результат, но требует значительного времени. Новый подход решает эту проблему: CausVid использует диффузионную модель в роли «учителя», обучающего автоагрессивную «ученическую» модель предсказывать каждый кадр быстро и точно. Это позволяет создавать короткие клипы за секунды, изменять содержание на лету и комбинировать текстовые команды в процессе генерации.

Пример кадров созданных ИИ — Модель CausVid может быстро генерировать клипы из простого текстового запроса, создавая множество творческих и художественных сценИсточник: MIT CSAIL

Тесты показали, что CausVid справляется с задачами лучше аналогов вроде OpenSORA и MovieGen. Модель демонстрирует не только скорость — до 100 раз быстрее конкурентов, — но и стабильное качество видео даже на протяженных отрезках до 30 секунд. При этом пользователи чаще отдавали предпочтение результатам ученической модели, чем более медленной, но разнообразной «учительской».

Сценарии использования модели выходят за рамки творчества: CausVid можно применять для перевода прямых эфиров, синхронизируя видео с озвучкой на другом языке, или для обучения роботов с помощью симуляций. Кроме того, в играх модель может быстро отрисовывать сцены в реальном времени, реагируя на действия игрока.

К примеру, пользователь может задать простой текстовый запрос вроде «мужчина переходит улицу», а затем уточнить: «он достает блокнот и делает записи». CausVid обновит видео без необходимости перезапускать процесс. Среди других примеров — бумажный самолетик, превращающийся в лебедя, или мамонты, идущие по заснеженному полю.

Процесс анимации — Для аниматоров и создателей контента CausVid — это революционный инструмент, который значительно ускоряет процесс генерации видеороликов, давая возможность мгновенно адаптировать сцены и добавлять новые элементы в реальном времениИсточник: Unsplash

Разработчики считают, что система сможет в будущем создавать видео практически мгновенно. Особенно хороших результатов можно достичь, обучая модель на узкоспециализированных наборах данных, например, для медицины или промышленной робототехники.

Эксперты отмечают, что CausVid открывает путь к более экологичным и интерактивным приложениям. По словам профессора Карнеги-Меллонского университета Чжун-Ян Чжу, который не участвовал в проекте, гибридный подход делает видеогенерацию гораздо эффективнее и ближе к возможностям языковых моделей.

В то время как одни компании развивают ИИ для создания видео, другие, как Apple, фокусируются на автоматизации разработки с помощью ИИ, а их сотрудничество с Anthropic обещает революцию в программировании.