В МФТИ научили ходить четвероногого робота, используя принципы биомозга - Журнал «За науку» — научно-популярные статьи на актуальные темы

Ученые из лаборатории нейробиоморфных технологий МФТИ совместно с коллегами из Университета Лобачевского в Нижнем Новгороде разработали четвероногого робота, который умеет ходить симметричной походкой, удерживать равновесие на сложных поверхностях и принимать решения в реальном времени благодаря встроенному нейропроцессору и алгоритмам обучения с подкреплением. Результаты опубликованы в Российском журнале нелинейной динамики.

Робот на платформе SpotMicro, оснащенный 12 степенями свободы и платой Orange Pi 5B, стал площадкой для отработки технологий, которые могут изменить подход к созданию автономных машин — от поисково-спасательных операций до мониторинга окружающей среды.

Шагающие роботы давно привлекают внимание исследователей: в отличие от колесных или гусеничных собратьев, они способны перемещаться по пересеченной местности, подниматься по лестницам и работать в тесных пространствах, куда не проедет ни одна машина на колесах. Знаменитый Spot от Boston Dynamics уже стал символом целого направления, но коммерческие платформы остаются дорогими и закрытыми.

Открытый проект SpotMicro — это, по сути, «домашняя версия» четвероногого робота, напечатанная на 3D-принтере и доступная для экспериментов. Именно эту платформу взяли за основу физтеховские разработчики, наполнив ее совершенно новым интеллектуальным содержанием.

Робот, созданный в МФТИ, состоит из центрального корпуса и четырех ног, каждая из которых имеет три сустава: как бедро, голень и стопа у животного. Всего 12управляемых степеней свободы, и каждая из них требует точного и синхронного контроля. Корпус отпечатан из легких полимерных материалов, подшипники в шарнирах минимизируют трение, а мягкие накладки на «лапах» обеспечивают сцепление с поверхностью. Центр масс рассчитан так, чтобы робот оставался устойчивым даже при активном движении.

Рисунок 1. 3D-модель четвероногого робота SpotMicro (слева) и собранный прототип (справа). Источник: Russian Journal of Nonlinear Dynamics

Но механика — лишь полдела. Главный вопрос: как заставить робота двигаться красиво и устойчиво? Авторы выстроили трехуровневую систему управления.

На верхнем уровне генератор походки формирует плавные траектории шага с помощью кривых Безье — тех самых математических кривых, которые дизайнеры используют в графическом редакторе, а здесь они определяют, как именно «лапа» поднимается, переносится вперед и мягко опускается на землю.

Средний уровень решает задачу обратной кинематики: зная, куда должна встать нога, система вычисляет, на какой угол повернуть каждый из трех суставов.

Наконец, нижний уровень управляет сервоприводами с частотой 100 Гц — сотня команд в секунду, чтобы робот мог мгновенно реагировать на изменения рельефа.

Однако классическая кинематика, даже самая точная, не спасает на неровном грунте или при неожиданных толчках. Здесь в дело вступает обучение с подкреплением — подход, при котором робот учится ходить методом проб и ошибок, как ребенок, постепенно нарабатывая координацию.

Исследователи использовали физический симулятор PyBullet: виртуальная копия робота снова и снова пробует различные движения, получает «награду» за успешное продвижение вперед и «штраф» за раскачивание и падения.

Два алгоритма — Augmented Random Search (ARS) и Soft Actor-Critic (SAC) — соревновались в эффективности обучения. ARS действует прямолинейно: случайным образом возмущает параметры и сохраняет те, что дают лучший результат. SAC сложнее — он реализует принцип максимальной энтропии, стремясь не только к высокой награде, но и к разнообразию стратегий, что делает поведение робота более устойчивым к непредвиденным ситуациям.

Рисунок 2. 3D-модель робота в симуляторе PyBullet с моделированием геометрии и законов физики, в котором происходило обучение алгоритмов управления. Источник: Russian Journal of Nonlinear Dynamics

Особую роль в управлении играли импульсные нейронные сети, которые работают по принципу, схожему с биологическими нейронами. В отличие от классических искусственных нейросетей, обрабатывающих числа непрерывно, импульсные нейроны «молчат», пока заряд на их мембране не превысит порог, и лишь тогда генерируют короткий импульс. Такой подход экономит энергию и идеально подходит для встраиваемых систем, где каждый ватт на счету.

Архитектура сети включала два скрытых слоя из 256 и 128 нейронов модели Leaky Integrate-and-Fire. Входной сигнал — данные с инерциального датчика о крене, тангаже, угловых скоростях и линейных ускорениях — преобразуется в последовательность импульсов, а на выходе сеть выдает корректирующие команды для каждой «лапы».

Артем Губа, научный сотрудник лаборатории нейробиоморфных технологий МФТИ, прокомментировал: «Мы хотели показать, что даже на относительно недорогой открытой платформе можно реализовать современные подходы к управлению. При этом энергозатраты существенно ниже, а это критично для автономного робота, работающего от аккумулятора».

Ключевым этапом стал перенос обученных алгоритмов из виртуального мира в реальный. Разрыв между симуляцией и физическим роботом — одна из главных проблем в робототехнике: в виртуальной среде нет шума датчиков, люфтов сервоприводов и непредсказуемого трения. Авторы применили рандомизацию динамики во время виртуальной тренировки: случайным образом изменяли массу робота, параметры трения и характеристики моторов, чтобы нейросеть привыкла к разбросу условий. Дополнительно использовались фильтр Калмана и медианная фильтрация для подавления шумов реальных инерциальных датчиков.

Мозгом реального робота стала плата Orange Pi 5B на базе чипа Rockchip RK3588S, оснащенная интегрированным нейропроцессором (Neural Processing Unit, NPU).

Нейропроцессор — это специализированный аппаратный ускоритель, заточенный под задачи искусственного интеллекта: распознавание объектов, обработку изображений с камеры, оптимизацию траекторий движения. Для развертывания обученной нейросети на NPU авторы использовали инструментарий RKNN-Toolkit2: модель, созданная в PyTorch, экспортировалась в формат ONNX, а затем конвертировалась в оптимизированный формат RKNN, приспособленный для аппаратного ускорителя.

Рисунок 3. Блок-схема электронных компонентов робота: одноплатный компьютер Orange Pi 5B с нейропроцессором, камера, инерциальный модуль, сервоконтроллер и сервоприводы. Источник: Russian Journal of Nonlinear Dynamics

Иннокентий Кастальский, научный сотрудник лаборатории нейробиоморфных технологий МФТИ, пояснил: «Нейропроцессор — это как мозжечок для нашего робота. Он разгружает основной процессор и берет на себя самые вычислительно емкие задачи. Без него пришлось бы использовать более мощное и более энергоемкое оборудование, а значит — тяжелый аккумулятор, больший вес, меньшую автономность. NPU позволяет удерживать все в рамках компактного и легкого корпуса».

Результаты экспериментов на реальном роботе подтвердили эффективность обучения. Обученная нейросеть, прошедшая 400 тысяч тренировочных шагов, прогнозировала углы суставов с ошибкой около 5%, а медианное отклонение составляло 3 градуса. Для сравнения: необученная сеть, остановившаяся на тысяче шагов, ошибалась на 20%, с медианным отклонением около 18 градусов и огромным разбросом значений.

Четырехкратное улучшение точности — результат не просто продолжительного обучения, а грамотной архитектуры вознаграждения: функция награды поощряла продвижение вперед и штрафовала за чрезмерные крены и угловые движения.

Графики обучения показали еще одно преимущество: импульсная нейросеть (SNN) быстрее набирала награду, чем классическая (ANN). Уже на первых ста тысячах шагов SNN демонстрировала стремительный рост, а стабильная конвергенция наступала к 300-тысячному шагу — без характерных для глубокого обучения обвалов производительности. Авторы объясняют это тем, что импульсные сети лучше кодируют ритмические паттерны, а ходьба — по своей природе — ритмический процесс.

Виктор Казанцев, заведующий лабораторией нейробиоморфных технологий МФТИ, рассказал: «Наша главная идея — использовать принципы работы биологического мозга для управления роботом. Импульсные нейронные сети — это не просто еще один инструмент машинного обучения, это мост между нейронаукой и робототехникой. Мы не копируем мозг буквально, но заимствуем его ключевые механизмы: импульсную передачу сигналов, экономичность вычислений, способность к быстрой адаптации. Когда такая сеть работает на нейроморфном ускорителе, мы получаем систему, которая приближается к биологической эффективности».

Ценность работы — в объединении нескольких технологий, которые прежде развивались по отдельности. Открытая платформа SpotMicro, импульсные нейросети, обучение с подкреплением в физическом симуляторе, перенос алгоритмов на реального робота и аппаратное ускорение на нейропроцессоре — все это собрано в единую, целостную систему. Авторы не только предложили архитектуру управления, но и провели полноценный цикл: от математической модели кинематики до демонстрации на физическом устройстве.

Четвероногие роботы с автономным управлением востребованы в поисково-спасательных операциях, в которых нужно перемещаться по завалам и обломкам; в мониторинге природной среды; в охранных системах и при обследовании промышленных объектов. Модульная конструкция позволяет наращивать сенсорное оснащение — добавлять лидары, тепловизоры, манипуляторы. А относительная дешевизна платформы делает возможным массовое использование подобных роботов, а не только единичные исследовательские экземпляры.

В ближайших планах команды — интеграция более сложных моделей машинного обучения, совершенствование сенсорной системы для полноценной автономной навигации и реализация дополнительных режимов передвижения: бега, галопа, ползания. Исследователи также рассчитывают масштабировать результаты на более крупные роботизированные платформы, где нейроморфные методы управления раскроют свой потенциал в полной мере. Впереди — переход от лабораторных испытаний к реальным полевым сценариям.

Научная статья: Guba A. V., Khabibullin F. R., Kovalev N. A., Andrulis V. V., Kastalskiy I. A., Kazantsev V. B. Implementations of Symmetrical Locomotion in a Quadrupedal Robot with a Neural Processing Unit // Russian Journal of Nonlinear Dynamics, 2025, vol. 21, no. 4, pp. 673–688. DOI: 10.20537/nd251203