Ученые из лаборатории нейробиоморфных технологий МФТИ совместно с коллегами из Университета Лобачевского в Нижнем Новгороде создали четвероногого робота. Устройство способно ходить симметричной походкой, удерживать равновесие на сложных поверхностях и принимать решения в реальном времени — такие возможности обеспечиваются встроенным нейропроцессором и алгоритмами обучения с подкреплением, рассказали в пресс-службе Минобрнауки России.

В основе робота — платформа SpotMicro с 12 степенями свободы и платой Orange Pi 5B. Эта разработка служит площадкой для отработки технологий, которые в перспективе могут кардинально изменить подход к созданию автономных машин: например, их можно будет задействовать в поисково‑спасательных операциях или для мониторинга окружающей среды.
Шагающие роботы давно привлекают исследователей: в отличие от колесных или гусеничных аналогов они могут перемещаться по пересеченной местности, подниматься по лестницам и работать в тесных пространствах. Знаменитый Spot от Boston Dynamics стал символом этого направления, но коммерческие платформы дороги и закрыты.

Открытый проект SpotMicro — доступная для экспериментов «домашняя версия» четвероногого робота, напечатанная на 3D‑принтере, — послужил основой для разработки ученых из МФТИ, которые наполнили платформу новым интеллектуальным содержанием.
Созданный робот состоит из центрального корпуса и четырех ног с тремя суставами каждая (как бедро, голень и стопа у животного) — всего 12 управляемых степеней свободы. Корпус изготовлен из легких полимерных материалов, подшипники в шарнирах минимизируют трение, а мягкие накладки на «лапах» обеспечивают сцепление с поверхностью. Благодаря продуманному расположению центра масс робот сохраняет устойчивость даже при активном движении.

Механика — лишь половина задачи. Главное — добиться красивого и устойчивого движения робота. Для этого авторы создали трехуровневую систему управления.
На верхнем уровне генератор походки с помощью кривых Безье формирует плавные траектории шага: эти математические кривые определяют, как «лапа» поднимается, переносится вперед и опускается на землю. Средний уровень решает задачу обратной кинематики: зная целевое положение ноги, система вычисляет углы поворота для каждого из трех суставов. Нижний уровень управляет сервоприводами с частотой 100 Гц — то есть отправляет сотню команд в секунду, позволяя роботу мгновенно реагировать на изменения рельефа.
Однако точной кинематики недостаточно на неровном грунте или при неожиданных толчках. В таких случаях помогает обучение с подкреплением: робот учится ходить методом проб и ошибок, постепенно нарабатывая координацию — примерно как ребенок. Для тренировок использовали физический симулятор PyBullet: виртуальная копия робота пробует разные движения, получает «награду» за успешное продвижение и «штраф» за раскачивание и падения.
Два алгоритма — Augmented Random Search (ARS) и Soft Actor‑Critic (SAC) — соревновались в эффективности обучения робота. ARS действует прямолинейно: случайным образом возмущает параметры и сохраняет те, что дают лучший результат. SAC сложнее — он реализует принцип максимальной энтропии, стремясь не только к высокой награде, но и к разнообразию стратегий, что делает поведение робота более устойчивым к непредвиденным ситуациям.
Важную роль в управлении сыграли импульсные нейронные сети, работающие по принципу биологических нейронов. В отличие от классических нейросетей, которые обрабатывают данные непрерывно, импульсные «молчат», пока заряд на мембране не превысит порог, — и только тогда генерируют короткий импульс. Такой подход экономит энергию, что особенно важно для встраиваемых систем.
Архитектура сети состояла из двух скрытых слоев (256 и 128 нейронов модели Leaky Integrate‑and‑Fire). Инерциальный датчик передает данные о крене, тангаже, угловых скоростях и линейных ускорениях — сеть преобразует их в последовательность импульсов и выдает корректирующие команды для каждой «лапы».
Мы хотели показать, что даже на относительно недорогой открытой платформе можно реализовать современные подходы к управлению. При этом энергозатраты существенно ниже, а это критично для автономного робота, работающего от аккумулятора.
Ключевым этапом стал перенос обученных алгоритмов из виртуальной среды в реальный мир. Одна из главных проблем робототехники — разрыв между симуляцией и физическим роботом: в виртуальном пространстве нет шума датчиков, люфтов сервоприводов и непредсказуемого трения.
Чтобы решить эту проблему, авторы рандомизировали динамику во время виртуальной тренировки: случайным образом меняли массу робота, параметры трения и характеристики моторов. Так нейросеть училась работать в разных условиях. Для подавления шумов реальных инерциальных датчиков дополнительно применили фильтр Калмана и медианную фильтрацию.
«Мозгом» робота стала плата Orange Pi 5B на базе чипа Rockchip RK3588S с интегрированным нейропроцессором (Neural Processing Unit, NPU). Этот ускоритель оптимизирован для задач ИИ — например, распознавания объектов, обработки изображений с камеры и оптимизации траекторий движения.
Для развертывания нейросети на NPU использовали инструментарий RKNN‑Toolkit2: модель, созданную в PyTorch, экспортировали в формат ONNX, а затем конвертировали в оптимизированный формат RKNN — он лучше подходит для аппаратного ускорителя.
Нейропроцессор — это как мозжечок для нашего робота. Он разгружает основной процессор и берет на себя самые вычислительно емкие задачи. Без него пришлось бы использовать более мощное и более энергоемкое оборудование, а значит — тяжелый аккумулятор, больший вес, меньшую автономность. NPU позволяет удерживать все в рамках компактного и легкого корпуса.
Эксперименты на реальном роботе подтвердили эффективность обучения. Нейросеть, прошедшая 400 тысяч тренировочных шагов, прогнозировала углы суставов с ошибкой около 5%, а медианное отклонение составляло всего 3 градуса. Для сравнения: необученная сеть (всего 1 тысяча шагов) ошибалась на 20%, с медианным отклонением около 18 градусов и сильным разбросом значений.
Такое четырехкратное улучшение точности стало результатом не только длительного обучения, но и продуманной системы вознаграждений: сеть поощряли за продвижение вперед и штрафовали за чрезмерные крены и угловые движения.
Графики обучения выявили еще одно преимущество: импульсная нейросеть (SNN) обучалась быстрее классической (ANN). Уже в первые 100 тысяч шагов SNN показывала стремительный рост, а к 300 тысячам достигала стабильной работы — без типичных для глубокого обучения провалов производительности. Авторы связывают это с тем, что импульсные сети лучше кодируют ритмические паттерны, а ходьба как раз представляет собой ритмический процесс. Результаты этой работы опубликованы в Российском журнале нелинейной динамики.
Наша главная идея — использовать принципы работы биологического мозга для управления роботом. Импульсные нейронные сети — это не просто еще один инструмент машинного обучения, это мост между нейронаукой и робототехникой. Мы не копируем мозг буквально, но заимствуем его ключевые механизмы: импульсную передачу сигналов, экономичность вычислений, способность к быстрой адаптации. Когда такая сеть работает на нейроморфном ускорителе, мы получаем систему, которая приближается к биологической эффективности.
Работа ценна объединением разных технологий в единую систему на базе открытой платформы SpotMicro: импульсных нейросетей, обучения с подкреплением, аппаратного ускорения на нейропроцессоре — от математической модели до реального робота.
Четвероногие автономные роботы найдут применение в поисково‑спасательных операциях, мониторинге среды и обследовании объектов. Их модульная конструкция и невысокая стоимость позволяют массово использовать такие машины.
В планах команды — улучшить машинное обучение и сенсорную систему, добавить режимы бега, галопа и ползания, перенести наработки на более крупные платформы и перейти от лабораторных испытаний к реальным сценариям.
Ранее Наука Mail рассказывала о том, что новая технология помогает роботу чистить фрукты.
