
На сервере препринтов arXiv опубликована работа исследователей из Нью-Йоркского университета и Калифорнийского университета в Беркли, в которой представлена система EgoZero — новая технология сбора демонстраций действий от первого лица для обучения роботов. Вместо громоздких сенсоров и сложных установок ученые используют умные очки Project Aria, разработанные компанией Meta*.
Главная идея — позволить роботам учиться, наблюдая за действиями человека глазами самого человека. Демонстрации повседневных задач, таких как открытие духовки или сортировка предметов, собираются в виде видео с очков. Эти данные затем применяются для обучения алгоритмов управления роботами без необходимости собирать данные от самих роботов.

Одна из ключевых особенностей EgoZero — отсутствие необходимости в сложной настройке камер или датчиков движения. Система строит 3D-представление действия на основе видео и позы руки, полученной с помощью очков. Это упрощает процесс и делает его доступным для масштабного сбора данных.
Тестирование показало, что роботизированная рука Franka Panda, обученная с помощью EgoZero, смогла успешно воспроизводить задачи, увиденные ранее, даже без прямого телеруководства. Всего 20 минут наблюдения за человеком оказалось достаточно для переноса навыка.

Код проекта опубликован на GitHub. Исследователи надеются, что это упростит сбор данных для других команд и ускорит развитие бытовой робототехники. В будущем они планируют исследовать, как совмещать такие 3D-представления с крупными языковыми и визуальными моделями для обучения более универсальных роботов.
Идея обучать роботов через человеческий взгляд, лежащая в основе EgoZero, тесно связана с другим перспективным направлением — попытками научить ИИ понимать, как мир выглядит с точки зрения другого. Ранее Наука Mail рассказала, как такие технологии помогают машинам развивать по-настоящему человеческий уровень восприятия.
*деятельность Meta признана экстремистской и запрещена в РФ