
Работа ученых будет представлена на конференции по компьютерному зрению и распознаванию образов. Ее опубликовали исследователи из Массачусетского технологического института (MIT), Университета Гете в Германии и IBM Research. Они предложили улучшенную модель машинного обучения, которая способна сопоставлять звук и изображение в видеоклипах без участия человека.
Новая версия модели CAV-MAE Sync позволяет системе точнее определять, какой именно звук соответствует конкретному моменту на видео. Это важно в реальной среде: в ней слуховая и визуальная информация тесно переплетаются. Модель обрабатывает данные так же, как это делает человек, используя зрение и слух одновременно.

В предыдущей версии модели CAV-MAE звук и изображение воспринимались как единое целое. Это не позволяло точно установить, в какой момент на видео произошел звук — например, хлопок двери. В новой версии исследователи разделили аудиодорожку на короткие отрезки, что позволило системе точнее сопоставлять звук с конкретным видеокадром. Это улучшило результаты при выполнении задач поиска и классификации.
Чтобы добиться лучших результатов, команда внедрила два новых вида представления данных — так называемые глобальные токены и регистровые токены. Первые помогают находить общее сходство между аудио- и видеоданными, вторые — фокусироваться на важных деталях для восстановления содержимого по запросу.

По словам авторов, несмотря на простоту многих улучшений, они позволили обойти более сложные модели, требующие больших объемов обучающих данных. Это делает разработку особенно ценной для будущих приложений, где важно экономить ресурсы и при этом добиваться высокой точности.
В будущем команда планирует интегрировать в модель текстовые данные, чтобы создать мультимодальную языковую систему, способную понимать звук, изображение и текст одновременно. Это может стать основой для более «человечного» ИИ, который понимает окружающий мир почти так же, как и мы.
Технологии, которые помогают ИИ воспринимать мир, не могут развиваться без мощной вычислительной базы. Пока одни учат нейросети видеть и слышать, другие создают инфраструктуру, способную обеспечивать их работоспособность на уровне целых государств — об этом вы можете прочитать в этой статье.