Робот учится у человека, просто наблюдая: умные очки помогают обучать машины

Чтобы роботы могли выполнять повседневные задачи в реальных условиях, им нужно учиться у людей. Исследователи предложили новый способ сделать это быстрее и проще — с помощью обычных умных очков.
Автор Наука Mail
Очки
Умные очки превращаются в инструмент сбора ценных обучающих данных для бытовых задачИсточник: Unsplash

На сервере препринтов arXiv опубликована работа исследователей из Нью-Йоркского университета и Калифорнийского университета в Беркли, в которой представлена система EgoZero — новая технология сбора демонстраций действий от первого лица для обучения роботов. Вместо громоздких сенсоров и сложных установок ученые используют умные очки Project Aria, разработанные компанией Meta*.

Главная идея — позволить роботам учиться, наблюдая за действиями человека глазами самого человека. Демонстрации повседневных задач, таких как открытие духовки или сортировка предметов, собираются в виде видео с очков. Эти данные затем применяются для обучения алгоритмов управления роботами без необходимости собирать данные от самих роботов.

Демонстрация работы технологии
Демонстрации на людях проводятся только с черными печами (вверху). Политика переносит нулевой выстрел на робота с той же печью (в середине), а также обобщает на новый экземпляр печи (внизу). Точки имеют цветовую кодировку для представления соответствияИсточник: GitHub

Одна из ключевых особенностей EgoZero — отсутствие необходимости в сложной настройке камер или датчиков движения. Система строит 3D-представление действия на основе видео и позы руки, полученной с помощью очков. Это упрощает процесс и делает его доступным для масштабного сбора данных.

Тестирование показало, что роботизированная рука Franka Panda, обученная с помощью EgoZero, смогла успешно воспроизводить задачи, увиденные ранее, даже без прямого телеруководства. Всего 20 минут наблюдения за человеком оказалось достаточно для переноса навыка.

Архитектурная схема
Архитектурная схема. EgoZero обучает в едином пространстве состояния-действия, определенном как эгоцентрические 3D-точки. В отличие от предыдущих методов, EgoZero локализует точки объекта с помощью триангуляции по траектории камеры и вычисляет точки действия с помощью позы руки Aria MPS и модели оценки руки. Эти точки контролируют политику Transformer с замкнутым контуром, которая развертывается на непроецированных точках с iPhone во время выводаИсточник: GitHub

Код проекта опубликован на GitHub. Исследователи надеются, что это упростит сбор данных для других команд и ускорит развитие бытовой робототехники. В будущем они планируют исследовать, как совмещать такие 3D-представления с крупными языковыми и визуальными моделями для обучения более универсальных роботов.

Идея обучать роботов через человеческий взгляд, лежащая в основе EgoZero, тесно связана с другим перспективным направлением — попытками научить ИИ понимать, как мир выглядит с точки зрения другого. Ранее Наука Mail рассказала, как такие технологии помогают машинам развивать по-настоящему человеческий уровень восприятия.

*деятельность Meta признана экстремистской и запрещена в РФ