Choice of clustering methods in machine learning for the study of ecological objects based on satellite data

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

The paper presents a method for preparing data for machine learning for semantic segmentation of informative classes in images based on clustering for solving problems of space monitoring of impact areas. A classification of clustering methods by various criteria is given. The choice of hierarchical clustering methods as the most effective for working with clusters of arbitrary structure and shape is substantiated. A general scheme for calculating a clustering model is given, which includes, in addition to the clustering itself, procedures for data tiling, estimating the optimal clustering parameters, registering objects, and assessing the quality of the obtained data. A scheme for preparing data for machine learning is shown, including the construction of a reference markup, calculation of a clustering model, markup correction, and testing the obtained clustering models for different informative classes on new images.

Full Text

Restricted Access

About the authors

V. E. Vorobyov

ISR “AEROCOSMOS”

Author for correspondence.
Email: vvorobev.aero@yandex.ru
Russian Federation, Moscow

A. B. Murynin

ISR “AEROCOSMOS”; FRC CSC RAS

Email: amurynin@bk.ru
Russian Federation, Moscow; Moscow

A. A. Richter

ISR “AEROCOSMOS”

Email: urfin17@yandex.ru
Russian Federation, Moscow

References

  1. Визильтер Ю.В., Выголов О.В., Желтов С.Ю., Рубис А.Ю. Комплексирование многоспектральных изображений для систем улучшенного видения на основе методов диффузной морфологии // Изв. РАН. ТиСУ. 2016. № 4. С. 103–114.
  2. Желтов С.Ю., Себряков Г.Г., Татарников И.Б. Компьютерные технологии создания геопространственных трехмерных сцен, использующих комплексирование географической информации и синтезированных пользовательских данных // Авиакосмическое приборостроение. 2003. № 8. С. 2–10.
  3. Ишутин А.А., Кикин И.С., Себряков Г.Г., Сошников В.Н. Алгоритмы обнаружения, локализации и распознавания оптико-электронных изображений группы изолированных наземных объектов для инерциально-визирных систем навигации и наведения летательных аппаратов // Изв. РАН. ТиСУ. 2016. № 2. С. 85.
  4. Гвоздев О.Г., Козуб В.А., Кошелева Н.В., Мурынин А.Б., Рихтер А.А. Построение трехмерных моделей ригидных объектов по спутниковым изображениям высокого пространственного разрешения с использованием сверточных нейронных сетей // Исследования Земли из космоса. 2020. № 5. С. 78–96.
  5. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с. ISBN5–279–00050–7
  6. Shuyue G., Murray L. An Internal Cluster Validity Index Using a Distance based Separability Measure // IEEE32nd Intern. Conf. on Tools with Artificial Intelligence (ICTAI)At: Baltimore, MD, USA, 2020. URL: https://arxiv.org/pdf/2009.01328
  7. Евсеев А.В., Красовская Т.М. Закономерности формирования импактных зон в Арктике и Субарктике России // География и природные ресурсы. 1997. № 4.
  8. Евсеев А.В., Красовская Т.М. «Горячие точки» Российской Арктики. Экологические проблемы российской Арктики // Вестн. МГУ. 2010. № 5.
  9. Душкова Д.О., Евсеев А.В. Анализ техногенного воздействия на геосистемы Европейского Севера России // Арктика и Север. 2011. № 4. С. 1–34.
  10. Лукин Ю.Ф. «Горячие точки» Российской Арктики //Арктика и Север. 2013. № 11. C.19, 20.
  11. Программа ООН по окружающей среде. Диагностический анализ состояния окружающей среды арктической u1079 зоны Российской Федерации: Расширенное резюме. М.: Науч. мир, 2011.
  12. Бондур В.Г. Основы аэрокосмического мониторинга окружающей среды. Курс лекций. М.: Московский государственный университет геодезии и картографии, 2008. 546 с.
  13. Савиных В.П. Соломатин В.А. Оптико-электронные системы дистанционного зондирования. М.: Машиностроение, 2014. 431 с.
  14. Хабр. Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python. URL: https://habr.com/ru/articles/798331/#dbscan
  15. Scikit-learn. Руководство пользователя URL: https://scikit-learn.ru/user_guide
  16. Рихтер А.А., Мурынин А.Б., Козуб В.А., Гвоздев О.Г. Модели представления экологических объектов по данным гиперспектральной съемки // Матер. 21-й Всероссийск. конф. с междунар. участием: Математические методы распознавания образов (ММРО). М.: Российская академия наук, 2023.
  17. Гвоздев О.Г., Козуб В.А., Мурынин А.Б., Рихтер А.А. Представление и обработка спектральных моделей по данным гиперспектральной съемки // Сб. тез. докл. 16-й Всероссийск. конф. «Современные проблемы дистанционного зондирования Земли из космоса». М.: ИКИ РАН, 2023. С. 19. URL: http:// http://conf.rse.geosmis.ru/files/books/2023/9992.htm
  18. Scipy. Руководство пользователя. Метод linkage. URL: https://docs.scipy.org/doc/scipy/tutorial/index.html
  19. Shanmugam S., Srinivasaperumal P. Spectral Matching Approaches in Hyperspectral Image Processing // Intern. J. Remote Sensing, 2014. V. 35. No. 24. P. 8217–8251. https://doi.org/10.1080/01431161.2014.980922. URL: https://www.researchgate. net/publication/270805406_Spectral_matching_approaches_in_hyperspectral_image_processing
  20. Jain A.K., Murty M.N., Flynn P.J. Data clustering: a review // Association for Computing Machinery, 1999. URL: https://www.sci-hub.ru/10.1145/331499.331504?ysclid=lzwss1aw3q662345026
  21. Ultralytics. Руководство пользователя. URL: https://docs.ultralytics.com/ru
  22. Гвоздев О.Г., Козуб В.А., Кошелева Н.В., Мурынин А.Б., Рихтер А.А. Нейросетевой метод построения трехмерных моделей ригидных объектов по спутниковым изображениям // Мехатроника, автоматизация, управление. 2021. Т. 22. № 1. С. 48–55.
  23. Игнатьев В.Ю., Матвеев И.А., Мурынин А.Б., Усманова А.А., Цурков В.И. Повышение пространственного разрешения панхроматических спутниковых изображений на основе генеративных нейросетей // Изв. РАН. ТиСУ. 2021. № 2. C.64–72. https://doi.org/10.31857/S0002338821020074
  24. Гвоздев О.Г., Мурынин А.Б., Козуб В.А., Пуховский Д.Ю., Рихтер А.А. Семантическая сегментация спутниковых изображений с использованием нейросетей для выявления антропогенных объектов в импактных районах Арктики // Матер. 20-й Междунар. конф. «Современные проблемы дистанционного зондирования Земли из космоса». М., 2022. С. 60. https://doi.org/10.21046/20DZZconf-2022a

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Dendrogram of a sample of points.

Download (28KB)
3. Fig. 2. Comparison for the image (a) of the k-means method (b) and the agglomerative clustering method (c).

Download (64KB)
4. Fig. 3. Scheme for obtaining a clustering model.

Download (82KB)
5. Fig. 4. Examples of tiling methods in clustering. Designations in the figure: 1 – current tile; 2 – next tile; 3 – places of tile stitching; 4 – element of the current tile; 5 – element of the next tile; 6 – tiling direction.

Download (65KB)
6. Fig. 5. Scheme of data preparation for machine learning (ANN – artificial neural network).

Download (74KB)
7. Fig. 6. Obtaining additionally trained markings using clustering: a – input image; b – object-by-object mask of clusters; c – selection of a cluster of water bodies; g – cluster correction; d – superimposition of the corrected cluster on the image; e – another image of the same angle.

Download (140KB)
8. Fig. 7. Result of semantic segmentation of reservoirs (Norilsk): a – input image; b – selection of reservoirs using a convolutional network, additionally trained on the adjusted cluster.

Download (68KB)

Copyright (c) 2024 Russian Academy of Sciences

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».