Scene recognition for the mobile robot global localization problem based on image vectorization and graphs approaches

Cover Page

Cite item

Full Text

Abstract

The paper is devoted to the problem of localization of mobile robots based on visual semantic data. The central element of such a problem is scene recognition task, i.e. searching for a correspondence between observed objects and objects on a semantic map. Paper proposes two methods based on definition of geometric features in the observed scene and searching for them on the map using various graph approaches. The proposed method for determining the relationships between objects, used in both methods, allows taking into account the errors in estimating distances by onboard sensors. In addition to using geometric features, the paper also considers the use of neural network models forming a feature vector based on an image, determining their visual similarity. Visual similarity is used to evaluate and sort the results obtained by the proposed methods based on graph approaches. In addition, the open KITTI-360 dataset was modified to evaluate the accuracy of solving scene recognition problems. Experiments on the resulting dataset demonstrated that the proposed approach, which combines geometric features and visual similarity, significantly increases the accuracy of the considered scene recognition methods. Based on the results of the experiments, some recommendations were formulated for the use of these approaches in practice.

About the authors

Anton Dmitrievich Moscowsky

National Research Ceneter «Kurchatov Institute»

Email: moscowskyad@yandex.ru
Moscow

References

  1. ВЕНТЦЕЛЬ Е.С. Теория вероятностей. – М.: Высшая школа, 1999. – 576 c.
  2. МОСКОВСКИЙ А.Д. Распознавание сцен для задачи глобальной локализации робота // Труды 34-й Междуна-родной научно-технической конференции «Экстремаль-ная робототехника». – 2023. – C. 267–274.
  3. МОСКОВСКИЙ А.Д. Распознавание сцен для задач ло-кализации мобильного робота в условиях неопределён-ности // Сборник научных трудов XII Международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллек-те» (ИММВ-2024), Коломна, 14-17 мая 2024 г. В 2-х то-мах. – 2024. – Т. 2. – C. 255–266.
  4. ANKENBAUER J., LUSK P.C., THOMAS A. et al. Global Localization in Unstructured Environments using Semantic Object Maps Built from Various Viewpoints // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – IEEE, 2023. – P. 1358–1365.
  5. CARLETTI V., FOGGIA P., GRECO A. et al. VF3-Light: A lightweight subgraph isomorphism algorithm and its ex-perimental evaluation // Pattern Recognition Letters. – 2019. – Vol. 125. – P. 591–596.
  6. CORDELLA L.P., FOGGIA P., SANSONE C. et al. Perfor-mance evaluation of the VF graph matching algorithm // Proc. of the 10th Int. Conf. on Image Analysis and Pro-cessing. – 1999. – P. 1172–1177.
  7. GARG S., FISCHER T., MILFORD M. Where Is Your Place, Visual Place Recognition? // Proc. of the 13th Int. Joint Conf. on Artificial Intelligence. – 2021. – P. 4416–4425.
  8. GAWEL A., DON C. DEL, SIEGWART R. et al. X-View: Graph-Based Semantic Multi-View Localization // IEEE Ro-bot. Autom. Lett. – 2018. – Vol. 3, No. 3. – P. 1687–1694.
  9. GEIGER A., LENZ P., URTASUN R. Are we ready for au-tonomous driving? The KITTI vision benchmark suite // IEEE Conf. on Computer Vision and Pattern Recognition. – 2012. – P. 3354–3361.
  10. HEWITT R.A., BOUKAS E., AZKARATE M. et al. The Katwijk beach planetary rover dataset // The Int. Journal of Robotics Research. – 2018. – No. 1(37). – P. 3–12.
  11. JÜTTNER A., MADARASI P. VF2++—An improved sub-graph isomorphism algorithm // Discrete Applied Mathemat-ics. – 2018. – Vol. 242. – P. 69–81.
  12. KERL C., STURM J., CREMERS D. Dense visual SLAM for RGB-D cameras // IEEE Int. Conf. on Intelligent Robots and Systems. – 2013. – P. 2100–2106.
  13. KONG X., YANG X., ZHAI G. et al. Semantic Graph Based Place Recognition for 3D Point Clouds // IEEE/RSJ Int. Conf. on Intelligent Ro-bots and Systems (IROS). – 2020. – P. 8216–8223.
  14. LIAO Y., XIE J., GEIGER A. KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding in 2D and 3D // IEEE Trans. Pattern Anal. Mach. Intell. – 2023. – Vol. 45, No. 3. – P. 3292–3310.
  15. LIU Y., PETILLOT Y., LANE D. et al. Global Localization with Object-Level Semantics and Topology // Int. Conf. on Robotics and Automation (ICRA). – 2019. – P. 4909–4915.
  16. LUSK P.C., FATHIAN K., HOW J.P. CLIPPER: A Graph-Theoretic Framework for Robust Data Association // IEEE Int. Conf. on Robotics and Automation (ICRA). – 2021. – P. 13828–13834 .
  17. MATSUZAKI S., SUGINO T., TANAKA K. et al. CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps // IEEE Int. Conf. on Robotics and Au-tomation (ICRA). – 2024. – P. 13673–13679.
  18. MIRJALILI R., KRAWEZ M., BURGARD W. FM-Loc: Us-ing Foundation Models for Improved Vision-based Localiza-tion // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – 2023. – P. 1381–1387.
  19. MOSCOWSKY A. Subdefinite Computations for Reducing the Search Space in Mobile Robot Localization Task // Lec-ture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioin-formatics). – 2021. – (12948 LNAI) – P. 180–196.
  20. QIN C., ZHANG Y., LIU Y. et al. Semantic loop closure de-tection based on graph matching in multi-objects scenes // Journal of Visual Communication and Image Representation. – 2021. – Vol. 76. – P. 103072.
  21. RADFORD A., KIM J.W., HALLACY C. et al. Learning Transferable Visual Models From Natural Language Super-vision // Int. Conf. on Machine Learning. – 2021. – P. 8748–8763.
  22. ROVBO M.A., SOROKOUMOV P.S. Symbolic Control Sys-tem for a Mobile Robotic Platform Based on Soar Cognitive Architecture // Smart Electromechanical Systems. – 2022. – P. 259–275.
  23. SAHILI A.R., HASSAN S., SAKHRIEH S.M. et al. A Survey of Visual SLAM Methods // IEEE Access. – 2023. – Vol. 11. – P. 139643–139677.
  24. SHAHEER M., MILLAN-ROMERA J.A., BAVLE H. et al. Graph-based Global Robot Localization Informing Situa-tional Graphs with Architectural Graphs // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – 2023. – P. 9155–9162.
  25. UEKI K. Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval // 20th IEEE Int. Conf. on Ma-chine Learning and Applications (ICMLA). – 2021. – P. 628–634.
  26. YIN H., XU X., LU S. et al. A Survey on Global LiDAR Lo-calization: Challenges, Advances and Open Problems // Int. Journal of Computer Vision. – 2024. – No. 8(132). – P. 3139–3171.
  27. ZEMSKOVA T., STAROVEROV A., MURAVYEV K. et al. Interactive Semantic Map Representation for Skill-Based Visual Object Navigation // IEEE Access. – 2024. – Vol. 12. – P. 44628–44639.
  28. ZHANG X.Y., ABD RAHMAN A.H., QAMAR F. Semantic visual simultaneous localization and mapping (SLAM) using deep learning for dynamic scenes // PeerJ Computer Science. – 2023. – Vol. 9. – P. e1628.
  29. ZHANG Y., SHI P., LI J. 3D LiDAR SLAM: A survey // The Photogrammetric Record. – 2024. – No. 186(39). – P. 457–517.
  30. ZHU Y., MA Y., CHEN L. et al. GOSMatch: Graph-of-Semantics Matching for Detecting Loop Closures in 3D Li-DAR data // IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). – 2020. – P. 5151–5157.
  31. ZIMMER W., ERCELIK E., ZHOU X. et al. A Survey of Ro-bust 3D Object Detection Methods in Point Clouds // arXiv preprint. – arXiv:2204.00106.
  32. https://huggingface.co/openai/clip-vit-base-patch32.
  33. https://github.com/MoscowskyAnton/scene_recognition_kitti_360.
  34. https://python.igraph.org/en/stable/.
  35. https://optuna.org/.

Supplementary files

Supplementary Files
Action
1. JATS XML


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».