Как научить ИИ видеть мир глазами другого

ИИ начинает учиться смотреть на мир глазами другого — будто примеряет чужие очки и понимает, что видит собеседник. Такой подход поможет роботам не просто выполнять команды, а действительно «договариваться» и действовать вместе с людьми, как настоящие напарники.

Владимир Барышев

Автор Наука Mail

Роботы учатся смотреть на мир глазами других, словно примеряют чужие очки, чтобы понимать окружение так, как это делает человек. Это не просто технология — это новый уровень социального интеллекта машинИсточник: Unsplash

Исследователи из Итальянского технологического института (IIT) и Абердинского университета представили в препринте на arXiv новую концепцию обучения языково-зрительных моделей, VLM, способных к пространственному мышлению. Это направление особенно важно для развития воплощенного ИИ — систем, которые могут ориентироваться в реальном мире и взаимодействовать с людьми на более естественном уровне.

Визуальное восприятие перспективы, VPT, или способность понять, как сцена выглядит с точки зрения другого, считается ключевым элементом социального интеллекта. Ученые постарались воссоздать это качество у роботов. Они создали набор синтетических данных — трехмерные изображения куба в виртуальной среде, к которым добавлены описания на естественном языке и специальные математические данные, описывающие положение объектов в пространстве.

Робот — Создан уникальный синтетический «искусственный мир», где роботы тренируются видеть и интерпретировать пространство не только со своей, но и с чужой точки зрения. Такой подход открывает путь к роботам, которые смогут лучше ориентироваться и сотрудничать с людьми в реальной жизниИсточник: Unsplash

Сценарии включают в себя не просто наблюдение, а активное моделирование того, как объект может выглядеть с разных точек. Такой подход позволяет ИИ оценивать, например, видно ли предмет другому человеку, или можно ли до него дотянуться. Виртуальная среда, созданная с помощью платформы Omniverse Replicator от NVIDIA, позволила сгенерировать тысячи уникальных сцен, что в реальности было бы почти невозможно.

По словам исследователей, предложенная структура пока остается теоретической. Но она может стать основой для создания ИИ, который будет учитывать точку зрения других агентов. Это открывает путь к более естественному взаимодействию между людьми и машинами — особенно в сферах, где важно понимание контекста, взглядов и движений.

Использование текста вместе с изображениями и пространственными данными помогает роботам «думать» о пространстве как живым существам, что является шагом к настоящему воплощенному искусственному интеллекту. Это расширяет возможности машин от простого восприятия к глубокому пониманию и взаимодействиюИсточник: Unsplash

Следующим этапом станет приближение виртуальной среды к реальности, чтобы ИИ мог использовать полученные знания вне лаборатории. В будущем такие модели помогут роботам действовать в общих пространствах и понимать, что именно видит и чувствует их собеседник.

Ранее Наука Mail рассказала о новой электронной коже, которая позволяет машинам чувствовать тепло, легкое касание и даже боль, открывая новые горизонты для человечно выглядящих и чувствующих роботов.