Применение метода машинного обучения для анализа неполных данных

Обложка

Цитировать

Полный текст

Аннотация

В данной работе представлен комплексный подход к анализу неполных и неточных данных, проиллюстрированный на примере прогнозирования селей. Целью исследования является демонстрация того, как сочетание различных методов позволяет не только получать адекватные прогнозы, но и глубоко понимать логику принятия решений моделью, выявляя ключевые факторы, влияющие на прогноз. Ключевым моментом работы является использование категоризации числовых данных для повышения устойчивости моделей к выбросам и шуму, а также для учета нелинейных зависимостей. Комплексный подход основан на сочетании ассоциативного анализа данных и построения логического классификатора, который выступает в роли интерпретатора полученных решений. Такое сочетание позволило выявлять критически важные входные признаки и понимать, как модель использует информацию для формирования прогноза, выделять факторы, оказывающие наибольшее влияние на результат прогнозирования, обеспечивать точность и устойчивость прогнозов с учетом специфики и сложности данных о селевых потоках. Полученные в ходе исследования правила, являющиеся ключевыми принципами изучаемой области, способствуют более глубокому пониманию природы селей.

Полный текст

Введение

Несмотря на разнообразие подходов и методов обработки данных логический анализ позволяет выявить причинно-следственные связи и зависимости между различными переменными в данных, найти скрытые закономерности и тенденции в данных, которые могут быть незаметны при другом анализе.

Объединение различных методов логического анализа позволяет учесть больше аспектов данных, снизить влияние шума и выбросов и получить более точные прогнозы. Различные методы, используемые в комплексном анализе, могут выявлять как линейные, так и нелинейные взаимосвязи между переменными, что важно для сложных систем [1].

Исследование применяет машинное обучение для анализа характеристик селевых потоков на Северном Кавказе, используя имеющийся кадастр селей [2] с данными о генезисе, типе селя, площади бассейна, уклоне русла, длине реки, высоте истока и объеме выноса (табл. 1).

 

Таблица 1. Характеристики селевых потоков

Table 1. Mudflow characteristics

Название

водотока

Генезис селя

Тип селя

Площадь бассейна, S, км2

Средний уклон русла,

α, ‰

Длина реки,

L, км

Высота

истока,

H, м абс.

Объем максимального единовременного выноса, W, м³

Максимальный объем твердых

отложений селя, W, м³ (аналитическим методом)

Повторяемость 1 раз

в n лет/

даты схода

1

Кичмалка

Д*

ВК

152,7

30

36

1909

10000

147240

1–2/

31.05.93

2

Рхыкол

Д

ВК

9,8

52

10

1440

100000

81946

1–2/–

3

Кызылкол

Д

ВК

14,1

220

4,5

1520

50000

52140

1–5/–

4

Тазакол

Д

ВК

11,3

150

5

1525

50000

43200

1–5/–

5

Лахран

Д

ВК

22,2

102

5

1629

20000

35712

1–5/–

6

Большой Лахран

Д

ВК

21,8

190

6

1642

50000

53400

1–5/–

Примечание: Д – дождевой, ВК – водокаменный

 

Работа направлена на демонстрацию способности машинного обучения выявлять закономерности и создавать эффективные модели для классификации и прогнозирования селей. Анализ позволит углубить понимание процессов формирования селей, определить ключевые факторы риска и в конечном счете создать прогнозные модели для оценки последствий и управления селеопасными территориями. Полученные результаты имеют практическую ценность для инженерной и научной деятельности [3, 4].

Анализ данных

Задача состоит в разработке модели прогнозирования и классификации селей, основанной на логическом анализе данных. Цель анализа – выявление общих правил, порождающих эти зависимости, отбор наиболее информативных переменных и классификация типов селей.

Анализ кластеризации выявил слабую структуру в данных, разделив их на три группы, характеризующиеся различными физическими свойствами и типами селевых потоков.

Эти группы демонстрируют некоторые интересные закономерности.

Группа 1 отличается большими бассейнами и низким уклоном, что нетипично для селевых потоков. Это может свидетельствовать о более медленных и постепенных процессах формирования селей в этой группе.

Группы 0 и 2 различаются по высоте источника селей и объему селевых масс, но имеют схожий генезис и тип селей. Возможно, эти группы связаны с определенными географическими условиями, например, с особым рельефом или климатом.

Модель многопараметрической регрессии, построенная для прогнозирования целевой переменной, оказалась неэффективной. Высокое значение MSE (92477727488,7331) свидетельствует о значительных ошибках прогнозирования, а низкое значение R-квадрата (0,1235) указывает на крайне низкую объясняющую способность модели [5, 6].

Линейная модель неадекватно описывает нелинейные взаимосвязи между предикторами и целевой переменной, что является основной причиной неудовлетворительных результатов. В качестве меры по преодолению этой проблемы была применена категоризация числовых данных [2, 7, 8].

Категориальные данные

Преобразование непрерывных данных в категориальные позволяет учитывать нелинейные зависимости путем разбиения данных на интервалы, в которых взаимосвязи могут быть аппроксимированы линейными. Такой подход повышает устойчивость моделей к выбросам и шуму, упрощая интерпретацию результатов (табл. 2). Вместо анализа непрерывного спектра значений модель оперирует более компактным набором дискретных категорий, что упрощает сравнение и анализ.

 

Таблица 2. Диапазон значений для дискретизации

Table 2. Range of values for discretization

Группа

Площадь бассейна, S, км2

Средний уклон русла,

α, ‰

Длина реки,

L, км

Высота истока, H, м абс.

M1, м3

M2, м3

Малый (0)

0 – 12,64

0 – 44,52

0 – 1492,8

0 – 1492,8

0 – 8300

0 – 71811,96

Средний (1)

12,64 – 58,45

44,52 – 105,76

1492,80 – 1644,48

1492,80 – 1644,48

8300 – 38800

71811,96 – 102840,08

Большой (2)

58,45 – +¥

105,76 – +¥

1644,48 –+¥

1644,48 – +¥

38800 – +¥

102840,08 –+¥

 

Теперь задача регрессии, описанная в предыдущем разделе, сводится к задаче классификации, поскольку целевая переменная становится категориальной. И задача может быть описана следующим образом [2, 9]:

X={x1,x2,...,xn},  xi{0,1,...,ki1}.

В нашей системе входными данными будут являться n=6, а выходными m=387:

x1(y1)x2(y1)...xn(y1)x1(y2)x2(y2)...xn(y2)............x1(ym)x2(ym)...xn(ym)y1y2...ym (1)       

Методы решения

Вместо того, чтобы предсказывать непрерывное значение объема максимального единовременного выноса «М1», мы теперь предсказываем, к какой из трех категорий (50, 51 или 52) относится «М1». После построения модели классификации с использованием дерева решений мы получили впечатляющие результаты, представленные в табл. 3.

 

Таблица 3. Результат классификации объема максимального единовременного выноса

Table 3. Result of classification of the maximum one-time removal volume

 Метрика

 

Объем выноса (м3)

 

Recall

(чувствительность)

Precision

(точность)

Accuracy

(правильность)

F1-мера

Малый (50)

1

1

1

1

Средний (51)

1

1

1

1

Большой (52)

1

1

1

1

 

Логические методы анализа – это построение ассоциативных правил и логического классификатора [10, 11].

Метод построения ассоциативных правил – это метод обнаружения скрытых взаимосвязей и закономерностей в больших объемах данных. Он фокусируется на поиске наборов элементов, которые часто встречаются вместе в данных. Этот метод обычно используется для анализа данных о транзакциях, где каждая запись представляет собой отдельную транзакцию.

В данной работе использовался алгоритм FP-Growth – это эффективный алгоритм для поиска ассоциативных правил в больших объемах данных. Он основан на построении специального дерева (FP-дерева), которое содержит часто встречающиеся элементы и их взаимосвязи. Алгоритм FP-Growth обходит это дерево, а не все данные целиком, что значительно ускоряет процесс поиска правил с высокой поддержкой. В итоге он находит все правила, удовлетворяющие заданным порогам поддержки и достоверности, значительно быстрее и эффективнее, чем другие алгоритмы, такие как Apriori [12].

После работы алгоритма самые важные ассоциативные правила представлены в табл. 4.

 

Таблица 4. Самые важные ассоциативные правила

Table 4. The most important association rules

Antecedents

(причина)

Consequents

(следствие)

232619

(D, GK, 11, 62)

(40, 32, 51, 22)

200538

(40, 11, 62)

(D, 32, 22, GK)

200510

(40, GK, 11, 62)

(D, 32, 22)

230187

(40, 32, 61, 51, 11, VK)

(C-D, 20)

230216

(40, 32, 61, 11, VK)

(C-D, 51, 20)

 

Анализ пяти выявленных закономерностей, используя методы булевой алгебры [9], показывает, что грязекаменные сели, даже при средней площади бассейна, отличаются значительным объемом максимального единовременного выноса и высоким содержанием твердых отложений.

Построение логического классификатора

Каждая строка (1) является зависимостью и может быть представлена следующим правилом:

&j=1mxjyi,yi.          (2)                           

Эти правила описывают зависимость конкретного выноса твердых отложений от остальных параметров данного селевого потока [8].

Представим их в следующей дизъюнктивной форме:

j=1mxj(yi)¯yi,  (3)

а зависимость всех исследуемых селевых потоков от своих параметров как

f(x,y)=&i=1nj=1mxj(yi)¯yi.  (4)

В нашем случае  fX=&j=1387&i=17xiP(yj)

x1{D,L,CD,};   x2{VK,GK};  x3{10,,11,12};x4{20,21,22};x5{30,31,32};x6{40,41,42};x7{50,51,52}.

P60=0приyi=61или621приyi=60;      P61=0приyi=60или621приyi=61;

P62=0приyi=60или611приyi=62.

Из огромного количества полученных правил (93 237) были отобраны наиболее значимые, в основном правила, содержащие категории 60, 61 или 62. Для упрощения и обобщения информации схожие правила были объединены, что сократило общее количество правил без потери ключевой информации [9].

В результате часть картины полученных правил изображена на рис. 1.

 

Рис. 1. Результирующие правила (здесь обозначения: «|»-« »; «,»- «&»)

Fig. 1. Resulting rules (here the notations are: «|»-« »; «,»- «&»)

 

Данные можно проинтерпретировать следующим образом: сели с малым объемом твердых отложений (60) – это преимущественно небольшие грязекаменные дождевые потоки с низкой интенсивностью. Сели со средним объемом (61) характеризуются преобладанием дождевого генезиса, но включают как грязекаменные, так и водокаменные сели преимущественно со средними и крупными бассейнами. Сели с большим объемом (62) чаще всего вызваны ливневыми дождями (L-D) и связаны с крупными бассейнами и руслами.

Заключение

В результате можно утверждать, что логический анализ данных позволяет выделить набор фундаментальных правил, которые объясняют основные закономерности и взаимосвязи в данных. Эти правила являются основой исследуемой области, способствуют более глубокому пониманию ее природы и оптимизируют поиск решений.

Результаты исследования показывают, что даже неполные и неточные данные могут стать основой для создания эффективных моделей прогнозирования, что дает возможности в области управления рисками и повышения безопасности в зонах, подверженных селевым потокам. Это подчеркивает потенциал интеллектуальных аналитических систем для эффективного управления рисками и минимизации негативных последствий селевых процессов.

×

Об авторах

Л. А. Лютикова

Кабардино-Балкарский научный центр Российской академии наук

Автор, ответственный за переписку.
Email: lylarisa@yandex.ru
ORCID iD: 0000-0002-5819-9396
SPIN-код: 1679-7460

Институт прикладной математики и автоматизации, канд. ф.-м. наук, зав. отделом нейроинформатики и машинного обучения

Россия, 360000, г. Нальчик, ул. Шортанова, 89 А

Список литературы

  1. Кондратьева Н. В. Предварительная оценка максимального объема твердых отложений селя методами математической статистики для Центрального Кавказа // Современные проблемы науки и образования. 2014. № 4. C. 50–56. URL: http://www.science-education.ru/118-13897
  2. Кондратьева Н. В., Аджиев А. Х., Беккиев М. Ю. и др. Кадастр селевой опасности Юга европейской части России. М., Нальчик: Феория, 2015. 148 c.
  3. Caiafa C. F., Jordi Solé-Casals J.S.-C., Marti-Puig P. et al. Decomposition methods for machine learning with small, incomplete or noisy datasets // Applied Sciences. 2020. Vol. 10. No. 23. P. 8481. doi: 10.3390/APP10238481
  4. Kainthura P., Sharma N. Hybrid machine learning approach for landslide prediction, Uttarakhand, India // Scientific reports. 2022. Vol. 12. No. 1. P. 20101. doi: 10.1038/s41598-022-22814-9
  5. Hadi F. A. A., Sidek L. M., Salih G. H. A. et al. Machine learning techniques for flood forecasting // Journal of Hydroinformatics. 2024. Vol. 26. No. 4. Pp. 779–799. doi: 10.2166/hydro.2024.208
  6. Lombardo L., Mai P. M. Presenting logistic regression-based landslide susceptibility results // Engineering Geology. 2018. Vol. 244. Pp. 14–24. doi: 10.1016/j.enggeo.2018.07.019
  7. Rahmati O., Kornejady A., Samadi M. et al. PMT: New analytical framework for automated evaluation of geo-environmental modelling approaches // The Science of the total environment. 2019. Vol. 664. Pp. 296–311. doi: 10.1016/j.scitotenv.2019.02.017
  8. Кюль Е. В., Езаов А. К., Канкулова Л. И. Теоретические основы геоэкологического мониторинга горных геосистем // Устойчивое развитие горных территорий. 2019. Т. 11. № 1. C. 36–43. doi: 10.21177/1998-4502-2019-11-1-36-43
  9. Lyutikova L. A. Methods for Improving the Efficiency of Neural Network Decision-Making // Advances in Automation IV. RusAutoCon 2022. Lecture Notes in Electrical Engineering – 2023. Vol. 986. Pp. 294–303. doi: 10.1007/978-3-031-22311-2_29
  10. Радеев Н. А. Предсказание лавинной опасности методами машинного обучения // Вестник НГУ. Серия: Информационные технологии. 2021. Т. 19. № 2. С. 92–101. doi: 10.25205/1818-7900-2021-19-2-92-101
  11. Журавлев Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. Т. 33. С. 5–68.
  12. Флах П. Машинное обучение: наука и искусство построения алгоритмов, которые извлекают знания из данных. М.: ДМК Пресс, 2015.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Результирующие правила (здесь обозначения: «|»-« »; «,»- «&»)

Скачать (10KB)

© Лютикова Л.А., 2024

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».