Новый алгоритм позволит роботам видеть мир в объеме и без слепых зон - Журнал «За науку» — научно-популярные статьи на актуальные темы

Международный научный коллектив с участием ученых МФТИ представил новую технологию стереозрения Un-ViTAStereo, которая определяет расстояние до объектов, не используя для обучения дорогостоящие лидары и ручную разметку. Она точна даже там, где «слепнут» современные алгоритмы: перед гладкими стенами, в густой листве или тумане. Технология может применяться в том числе для безопасности беспилотных автомобилей и автономных роботов. Исследование опубликовано в журнале IEEE Transactions on Circuits and Systems for Video Technology.

Как мы понимаем, насколько удален от нас предмет? Каждую секунду наш мозг сопоставляет два немного разных изображения — от левого и правого глаза — и на основе разницы между ними строит трехмерную карту мира.

Стереосистемы роботов и беспилотных автомобилей устроены подобной зрению человека. Только вместо глаз они используют камеры, а вместо мозга — алгоритмы. Но этот механизм срабатывает не везде. Например, при встрече с идеально белой стеной или зоной с повторяющимися узорами, алгоритму не хватает визуальных зацепок, чтобы верно сопоставить изображения. Могла бы помочь ручная разметка с правильным расстоянием до каждого объекта, но работать она будет только в ограниченном сценарии.

Новый фреймворк для обучения нейросетей, разработанный международной командой ученых, помогает преодолеть этот барьер. Они вводят в процесс обучения «наставника» — модель Depth Anything V2. Она умеет оценивать относительную глубину только с помощью «одного глаза» — одного изображения. Depth Anything V2 не измеряет метры, но распознаёт тени, перспективу и перекрытия объектов и почти безошибочно определяет, что ближе, а что дальше. Алгоритм отбирает только те предсказания стереосистемы, которые согласуются с её подсказками, и учит нейросеть повышать точность.

«Модель Depth Anything V2 постоянно передаёт различные подсказки стереосистеме. Например, “я не знаю, на сколько метров эта машина ближе дерева, но она точно ближе, и граница между ними должна быть резкой” или “на этой стене, где нет контраста, глубина должна меняться плавно” и т.д.», — пояснил Александр Дворкович, руководитель проекта Научно-технического центра телекоммуникаций МФТИ.

Система работает в три этапа. Сначала алгоритм оценки диспаратности (смещения) (DDCV) проверяет каждый пиксель, соответствуют ли его данные подсказкам «наставника», и помечает их зеленым (верно) и красным (ошибка) цветом. Затем функция потерь на основе локального ранжирования глубины (LDR) ищет вокруг каждой красной точки несколько зеленых соседей. Подобно маякам, они задают границы и сдвигают красный пиксель на нужное место.

Иллюстрация работы алгоритма оценки достоверности диспаратности (DDCV). Источник: IEEE Transactions on Circuits and Systems for Video Technology

Наконец, алгоритм «Двойная функция потерь сглаживания диспаратности DDS» помогает построить контуры. Она убирает цифровой шум там, где «наставник» говорит, что цвет должен быть равномерным, и наоборот.

«Работу системы уже протестировали на стандартных датасетах. Результат — абсолютное превосходство Un-ViTAStereo среди всех аналогов на бенчмарке. Например, на тесте беспилотников KITTI 2015 долю грубых ошибок удалось снизить до 5%. Это значит, что при движении будет на 23% меньше опасных ошибок в определении расстояний до объектов (бордюра или пешехода)», — добавил Александр Дворкович.

Экспериментальные результаты работы систем и данной работы на стереодатасетах KITTI, MiddEval, ETH3D. Изображения в первом ряду каждого метода представляют оценочные карты глубины, а изображения во втором ряду демонстрируют визуализации ошибки. Источник: IEEE Transactions on Circuits and Systems for Video Technology

Текущая версия Un-ViTAStereo — только начало. На ее основе ученые планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под специфику разных сред — от городских улиц до заводских цехов. Также ученые хотят использовать редкие, но точные измерения лидаров в качестве «супер-маяков» для обучения, что еще больше повысит точность.

Научная статья: C. -W. Liu, M. Sun, C. Zhao, H. Wang, A. Dvorkovich and R. Fan; Integrating Disparity Confidence Estimation Into Relative Depth Prior-Guided Unsupervised Stereo Matching; IEEE Transactions on Circuits and Systems for Video Technology, 2026, doi: 10.1109/TCSVT.2025.3597128