Распознавание сцен в задаче глобальной локализации мобильного робота с использованием моделей векторных представлений изображений и графовых подходов

Обложка

Цитировать

Полный текст

Аннотация

Работа посвящена задаче локализации мобильных роботов по визуальным семантическим данным. Центральным элементом такой задачи является распознавание сцен – поиск соответствия между наблюдаемыми объектами и объектами, нанесенными на карту местности (семантическая карта). Предлагаются два метода, использующие определение геометрических особенностей на наблюдаемой сцене и поиск их на карте с помощью различных подходов на графах. Предложенный способ определения отношений между объектами, использующийся в обоих методах, позволяет учитывать погрешности оценки расстояний бортовыми сенсорами. Помимо использования геометрических особенностей в работе также рассматривается применение нейросетевых моделей, которые формируют вектор признаков по изображению, тем самым позволяя определить их визуальное сходство. Визуальное сходство используется для нормирования и оценки результатов, полученных предложенными методами на основе графовых подходов. Кроме того, был модифицирован открытый набор данных KITTI-360 для оценки точности решения задач распознавания сцен. Эксперименты на полученном наборе данных продемонстрировали, что предлагаемый подход, сочетающий геометрические особенности и визуальное сходство, значительно повышает точность рассмотренных методов распознавания сцен. По результатм экспериментов сформированы некоторые рекомендации по использованию данных подходов на практике.

Об авторах

Антон Дмитриевич Московский

НИЦ «Курчатовский институт»

Email: moscowskyad@yandex.ru
Москва

Список литературы

  1. ВЕНТЦЕЛЬ Е.С. Теория вероятностей. – М.: Высшая школа, 1999. – 576 c.
  2. МОСКОВСКИЙ А.Д. Распознавание сцен для задачи глобальной локализации робота // Труды 34-й Междуна-родной научно-технической конференции «Экстремаль-ная робототехника». – 2023. – C. 267–274.
  3. МОСКОВСКИЙ А.Д. Распознавание сцен для задач ло-кализации мобильного робота в условиях неопределён-ности // Сборник научных трудов XII Международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллек-те» (ИММВ-2024), Коломна, 14-17 мая 2024 г. В 2-х то-мах. – 2024. – Т. 2. – C. 255–266.
  4. ANKENBAUER J., LUSK P.C., THOMAS A. et al. Global Localization in Unstructured Environments using Semantic Object Maps Built from Various Viewpoints // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – IEEE, 2023. – P. 1358–1365.
  5. CARLETTI V., FOGGIA P., GRECO A. et al. VF3-Light: A lightweight subgraph isomorphism algorithm and its ex-perimental evaluation // Pattern Recognition Letters. – 2019. – Vol. 125. – P. 591–596.
  6. CORDELLA L.P., FOGGIA P., SANSONE C. et al. Perfor-mance evaluation of the VF graph matching algorithm // Proc. of the 10th Int. Conf. on Image Analysis and Pro-cessing. – 1999. – P. 1172–1177.
  7. GARG S., FISCHER T., MILFORD M. Where Is Your Place, Visual Place Recognition? // Proc. of the 13th Int. Joint Conf. on Artificial Intelligence. – 2021. – P. 4416–4425.
  8. GAWEL A., DON C. DEL, SIEGWART R. et al. X-View: Graph-Based Semantic Multi-View Localization // IEEE Ro-bot. Autom. Lett. – 2018. – Vol. 3, No. 3. – P. 1687–1694.
  9. GEIGER A., LENZ P., URTASUN R. Are we ready for au-tonomous driving? The KITTI vision benchmark suite // IEEE Conf. on Computer Vision and Pattern Recognition. – 2012. – P. 3354–3361.
  10. HEWITT R.A., BOUKAS E., AZKARATE M. et al. The Katwijk beach planetary rover dataset // The Int. Journal of Robotics Research. – 2018. – No. 1(37). – P. 3–12.
  11. JÜTTNER A., MADARASI P. VF2++—An improved sub-graph isomorphism algorithm // Discrete Applied Mathemat-ics. – 2018. – Vol. 242. – P. 69–81.
  12. KERL C., STURM J., CREMERS D. Dense visual SLAM for RGB-D cameras // IEEE Int. Conf. on Intelligent Robots and Systems. – 2013. – P. 2100–2106.
  13. KONG X., YANG X., ZHAI G. et al. Semantic Graph Based Place Recognition for 3D Point Clouds // IEEE/RSJ Int. Conf. on Intelligent Ro-bots and Systems (IROS). – 2020. – P. 8216–8223.
  14. LIAO Y., XIE J., GEIGER A. KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding in 2D and 3D // IEEE Trans. Pattern Anal. Mach. Intell. – 2023. – Vol. 45, No. 3. – P. 3292–3310.
  15. LIU Y., PETILLOT Y., LANE D. et al. Global Localization with Object-Level Semantics and Topology // Int. Conf. on Robotics and Automation (ICRA). – 2019. – P. 4909–4915.
  16. LUSK P.C., FATHIAN K., HOW J.P. CLIPPER: A Graph-Theoretic Framework for Robust Data Association // IEEE Int. Conf. on Robotics and Automation (ICRA). – 2021. – P. 13828–13834 .
  17. MATSUZAKI S., SUGINO T., TANAKA K. et al. CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps // IEEE Int. Conf. on Robotics and Au-tomation (ICRA). – 2024. – P. 13673–13679.
  18. MIRJALILI R., KRAWEZ M., BURGARD W. FM-Loc: Us-ing Foundation Models for Improved Vision-based Localiza-tion // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – 2023. – P. 1381–1387.
  19. MOSCOWSKY A. Subdefinite Computations for Reducing the Search Space in Mobile Robot Localization Task // Lec-ture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioin-formatics). – 2021. – (12948 LNAI) – P. 180–196.
  20. QIN C., ZHANG Y., LIU Y. et al. Semantic loop closure de-tection based on graph matching in multi-objects scenes // Journal of Visual Communication and Image Representation. – 2021. – Vol. 76. – P. 103072.
  21. RADFORD A., KIM J.W., HALLACY C. et al. Learning Transferable Visual Models From Natural Language Super-vision // Int. Conf. on Machine Learning. – 2021. – P. 8748–8763.
  22. ROVBO M.A., SOROKOUMOV P.S. Symbolic Control Sys-tem for a Mobile Robotic Platform Based on Soar Cognitive Architecture // Smart Electromechanical Systems. – 2022. – P. 259–275.
  23. SAHILI A.R., HASSAN S., SAKHRIEH S.M. et al. A Survey of Visual SLAM Methods // IEEE Access. – 2023. – Vol. 11. – P. 139643–139677.
  24. SHAHEER M., MILLAN-ROMERA J.A., BAVLE H. et al. Graph-based Global Robot Localization Informing Situa-tional Graphs with Architectural Graphs // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – 2023. – P. 9155–9162.
  25. UEKI K. Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval // 20th IEEE Int. Conf. on Ma-chine Learning and Applications (ICMLA). – 2021. – P. 628–634.
  26. YIN H., XU X., LU S. et al. A Survey on Global LiDAR Lo-calization: Challenges, Advances and Open Problems // Int. Journal of Computer Vision. – 2024. – No. 8(132). – P. 3139–3171.
  27. ZEMSKOVA T., STAROVEROV A., MURAVYEV K. et al. Interactive Semantic Map Representation for Skill-Based Visual Object Navigation // IEEE Access. – 2024. – Vol. 12. – P. 44628–44639.
  28. ZHANG X.Y., ABD RAHMAN A.H., QAMAR F. Semantic visual simultaneous localization and mapping (SLAM) using deep learning for dynamic scenes // PeerJ Computer Science. – 2023. – Vol. 9. – P. e1628.
  29. ZHANG Y., SHI P., LI J. 3D LiDAR SLAM: A survey // The Photogrammetric Record. – 2024. – No. 186(39). – P. 457–517.
  30. ZHU Y., MA Y., CHEN L. et al. GOSMatch: Graph-of-Semantics Matching for Detecting Loop Closures in 3D Li-DAR data // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – 2020. – P. 5151–5157.
  31. ZIMMER W., ERCELIK E., ZHOU X. et al. A Survey of Ro-bust 3D Object Detection Methods in Point Clouds // arXiv preprint. – arXiv:2204.00106.
  32. https://huggingface.co/openai/clip-vit-base-patch32.
  33. https://github.com/MoscowskyAnton/scene_recognition_kitti_360.
  34. https://python.igraph.org/en/stable/.
  35. https://optuna.org/.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».