Применение метода машинного обучения для анализа неполных данных
- Авторы: Лютикова Л.А.1
-
Учреждения:
- Кабардино-Балкарский научный центр Российской академии наук
- Выпуск: Том 26, № 6 (2024)
- Страницы: 139-145
- Раздел: Информатика и информационные процессы
- URL: https://ogarev-online.ru/1991-6639/article/view/282103
- DOI: https://doi.org/10.35330/1991-6639-2024-26-6-139-145
- EDN: https://elibrary.ru/FIUPQE
- ID: 282103
Цитировать
Полный текст
Аннотация
В данной работе представлен комплексный подход к анализу неполных и неточных данных, проиллюстрированный на примере прогнозирования селей. Целью исследования является демонстрация того, как сочетание различных методов позволяет не только получать адекватные прогнозы, но и глубоко понимать логику принятия решений моделью, выявляя ключевые факторы, влияющие на прогноз. Ключевым моментом работы является использование категоризации числовых данных для повышения устойчивости моделей к выбросам и шуму, а также для учета нелинейных зависимостей. Комплексный подход основан на сочетании ассоциативного анализа данных и построения логического классификатора, который выступает в роли интерпретатора полученных решений. Такое сочетание позволило выявлять критически важные входные признаки и понимать, как модель использует информацию для формирования прогноза, выделять факторы, оказывающие наибольшее влияние на результат прогнозирования, обеспечивать точность и устойчивость прогнозов с учетом специфики и сложности данных о селевых потоках. Полученные в ходе исследования правила, являющиеся ключевыми принципами изучаемой области, способствуют более глубокому пониманию природы селей.
Ключевые слова
Полный текст
Введение
Несмотря на разнообразие подходов и методов обработки данных логический анализ позволяет выявить причинно-следственные связи и зависимости между различными переменными в данных, найти скрытые закономерности и тенденции в данных, которые могут быть незаметны при другом анализе.
Объединение различных методов логического анализа позволяет учесть больше аспектов данных, снизить влияние шума и выбросов и получить более точные прогнозы. Различные методы, используемые в комплексном анализе, могут выявлять как линейные, так и нелинейные взаимосвязи между переменными, что важно для сложных систем [1].
Исследование применяет машинное обучение для анализа характеристик селевых потоков на Северном Кавказе, используя имеющийся кадастр селей [2] с данными о генезисе, типе селя, площади бассейна, уклоне русла, длине реки, высоте истока и объеме выноса (табл. 1).
Таблица 1. Характеристики селевых потоков
Table 1. Mudflow characteristics
№ | Название водотока | Генезис селя | Тип селя | Площадь бассейна, S, км2 | Средний уклон русла, α, ‰ | Длина реки, L, км | Высота истока, H, м абс. | Объем максимального единовременного выноса, W, м³ | Максимальный объем твердых отложений селя, W, м³ (аналитическим методом) | Повторяемость 1 раз в n лет/ даты схода |
1 | Кичмалка | Д* | ВК | 152,7 | 30 | 36 | 1909 | 10000 | 147240 | 1–2/ 31.05.93 |
2 | Рхыкол | Д | ВК | 9,8 | 52 | 10 | 1440 | 100000 | 81946 | 1–2/– |
3 | Кызылкол | Д | ВК | 14,1 | 220 | 4,5 | 1520 | 50000 | 52140 | 1–5/– |
4 | Тазакол | Д | ВК | 11,3 | 150 | 5 | 1525 | 50000 | 43200 | 1–5/– |
5 | Лахран | Д | ВК | 22,2 | 102 | 5 | 1629 | 20000 | 35712 | 1–5/– |
6 | Большой Лахран | Д | ВК | 21,8 | 190 | 6 | 1642 | 50000 | 53400 | 1–5/– |
Примечание: Д – дождевой, ВК – водокаменный |
Работа направлена на демонстрацию способности машинного обучения выявлять закономерности и создавать эффективные модели для классификации и прогнозирования селей. Анализ позволит углубить понимание процессов формирования селей, определить ключевые факторы риска и в конечном счете создать прогнозные модели для оценки последствий и управления селеопасными территориями. Полученные результаты имеют практическую ценность для инженерной и научной деятельности [3, 4].
Анализ данных
Задача состоит в разработке модели прогнозирования и классификации селей, основанной на логическом анализе данных. Цель анализа – выявление общих правил, порождающих эти зависимости, отбор наиболее информативных переменных и классификация типов селей.
Анализ кластеризации выявил слабую структуру в данных, разделив их на три группы, характеризующиеся различными физическими свойствами и типами селевых потоков.
Эти группы демонстрируют некоторые интересные закономерности.
Группа 1 отличается большими бассейнами и низким уклоном, что нетипично для селевых потоков. Это может свидетельствовать о более медленных и постепенных процессах формирования селей в этой группе.
Группы 0 и 2 различаются по высоте источника селей и объему селевых масс, но имеют схожий генезис и тип селей. Возможно, эти группы связаны с определенными географическими условиями, например, с особым рельефом или климатом.
Модель многопараметрической регрессии, построенная для прогнозирования целевой переменной, оказалась неэффективной. Высокое значение MSE (92477727488,7331) свидетельствует о значительных ошибках прогнозирования, а низкое значение R-квадрата (0,1235) указывает на крайне низкую объясняющую способность модели [5, 6].
Линейная модель неадекватно описывает нелинейные взаимосвязи между предикторами и целевой переменной, что является основной причиной неудовлетворительных результатов. В качестве меры по преодолению этой проблемы была применена категоризация числовых данных [2, 7, 8].
Категориальные данные
Преобразование непрерывных данных в категориальные позволяет учитывать нелинейные зависимости путем разбиения данных на интервалы, в которых взаимосвязи могут быть аппроксимированы линейными. Такой подход повышает устойчивость моделей к выбросам и шуму, упрощая интерпретацию результатов (табл. 2). Вместо анализа непрерывного спектра значений модель оперирует более компактным набором дискретных категорий, что упрощает сравнение и анализ.
Таблица 2. Диапазон значений для дискретизации
Table 2. Range of values for discretization
Группа | Площадь бассейна, S, км2 | Средний уклон русла, α, ‰ | Длина реки, L, км | Высота истока, H, м абс. | M1, м3 | M2, м3 |
Малый (0) | 0 – 12,64 | 0 – 44,52 | 0 – 1492,8 | 0 – 1492,8 | 0 – 8300 | 0 – 71811,96 |
Средний (1) | 12,64 – 58,45 | 44,52 – 105,76 | 1492,80 – 1644,48 | 1492,80 – 1644,48 | 8300 – 38800 | 71811,96 – 102840,08 |
Большой (2) | 58,45 – +¥ | 105,76 – +¥ | 1644,48 –+¥ | 1644,48 – +¥ | 38800 – +¥ | 102840,08 –+¥ |
Теперь задача регрессии, описанная в предыдущем разделе, сводится к задаче классификации, поскольку целевая переменная становится категориальной. И задача может быть описана следующим образом [2, 9]:
В нашей системе входными данными будут являться n=6, а выходными m=387:
(1)
Методы решения
Вместо того, чтобы предсказывать непрерывное значение объема максимального единовременного выноса «М1», мы теперь предсказываем, к какой из трех категорий (50, 51 или 52) относится «М1». После построения модели классификации с использованием дерева решений мы получили впечатляющие результаты, представленные в табл. 3.
Таблица 3. Результат классификации объема максимального единовременного выноса
Table 3. Result of classification of the maximum one-time removal volume
Метрика
Объем выноса (м3)
| Recall (чувствительность) | Precision (точность) | Accuracy (правильность) | F1-мера |
Малый (50) | 1 | 1 | 1 | 1 |
Средний (51) | 1 | 1 | 1 | 1 |
Большой (52) | 1 | 1 | 1 | 1 |
Логические методы анализа – это построение ассоциативных правил и логического классификатора [10, 11].
Метод построения ассоциативных правил – это метод обнаружения скрытых взаимосвязей и закономерностей в больших объемах данных. Он фокусируется на поиске наборов элементов, которые часто встречаются вместе в данных. Этот метод обычно используется для анализа данных о транзакциях, где каждая запись представляет собой отдельную транзакцию.
В данной работе использовался алгоритм FP-Growth – это эффективный алгоритм для поиска ассоциативных правил в больших объемах данных. Он основан на построении специального дерева (FP-дерева), которое содержит часто встречающиеся элементы и их взаимосвязи. Алгоритм FP-Growth обходит это дерево, а не все данные целиком, что значительно ускоряет процесс поиска правил с высокой поддержкой. В итоге он находит все правила, удовлетворяющие заданным порогам поддержки и достоверности, значительно быстрее и эффективнее, чем другие алгоритмы, такие как Apriori [12].
После работы алгоритма самые важные ассоциативные правила представлены в табл. 4.
Таблица 4. Самые важные ассоциативные правила
Table 4. The most important association rules
№ | Antecedents (причина) | Consequents (следствие) |
232619 | (D, GK, 11, 62) | (40, 32, 51, 22) |
200538 | (40, 11, 62) | (D, 32, 22, GK) |
200510 | (40, GK, 11, 62) | (D, 32, 22) |
230187 | (40, 32, 61, 51, 11, VK) | (C-D, 20) |
230216 | (40, 32, 61, 11, VK) | (C-D, 51, 20) |
Анализ пяти выявленных закономерностей, используя методы булевой алгебры [9], показывает, что грязекаменные сели, даже при средней площади бассейна, отличаются значительным объемом максимального единовременного выноса и высоким содержанием твердых отложений.
Построение логического классификатора
Каждая строка (1) является зависимостью и может быть представлена следующим правилом:
(2)
Эти правила описывают зависимость конкретного выноса твердых отложений от остальных параметров данного селевого потока [8].
Представим их в следующей дизъюнктивной форме:
(3)
а зависимость всех исследуемых селевых потоков от своих параметров как
(4)
В нашем случае
Из огромного количества полученных правил (93 237) были отобраны наиболее значимые, в основном правила, содержащие категории 60, 61 или 62. Для упрощения и обобщения информации схожие правила были объединены, что сократило общее количество правил без потери ключевой информации [9].
В результате часть картины полученных правил изображена на рис. 1.
Рис. 1. Результирующие правила (здесь обозначения: «|»-« »; «,»- «&»)
Fig. 1. Resulting rules (here the notations are: «|»-« »; «,»- «&»)
Данные можно проинтерпретировать следующим образом: сели с малым объемом твердых отложений (60) – это преимущественно небольшие грязекаменные дождевые потоки с низкой интенсивностью. Сели со средним объемом (61) характеризуются преобладанием дождевого генезиса, но включают как грязекаменные, так и водокаменные сели преимущественно со средними и крупными бассейнами. Сели с большим объемом (62) чаще всего вызваны ливневыми дождями (L-D) и связаны с крупными бассейнами и руслами.
Заключение
В результате можно утверждать, что логический анализ данных позволяет выделить набор фундаментальных правил, которые объясняют основные закономерности и взаимосвязи в данных. Эти правила являются основой исследуемой области, способствуют более глубокому пониманию ее природы и оптимизируют поиск решений.
Результаты исследования показывают, что даже неполные и неточные данные могут стать основой для создания эффективных моделей прогнозирования, что дает возможности в области управления рисками и повышения безопасности в зонах, подверженных селевым потокам. Это подчеркивает потенциал интеллектуальных аналитических систем для эффективного управления рисками и минимизации негативных последствий селевых процессов.
Об авторах
Л. А. Лютикова
Кабардино-Балкарский научный центр Российской академии наук
Автор, ответственный за переписку.
Email: lylarisa@yandex.ru
ORCID iD: 0000-0002-5819-9396
SPIN-код: 1679-7460
Институт прикладной математики и автоматизации, канд. ф.-м. наук, зав. отделом нейроинформатики и машинного обучения
Россия, 360000, г. Нальчик, ул. Шортанова, 89 АСписок литературы
- Кондратьева Н. В. Предварительная оценка максимального объема твердых отложений селя методами математической статистики для Центрального Кавказа // Современные проблемы науки и образования. 2014. № 4. C. 50–56. URL: http://www.science-education.ru/118-13897
- Кондратьева Н. В., Аджиев А. Х., Беккиев М. Ю. и др. Кадастр селевой опасности Юга европейской части России. М., Нальчик: Феория, 2015. 148 c.
- Caiafa C. F., Jordi Solé-Casals J.S.-C., Marti-Puig P. et al. Decomposition methods for machine learning with small, incomplete or noisy datasets // Applied Sciences. 2020. Vol. 10. No. 23. P. 8481. doi: 10.3390/APP10238481
- Kainthura P., Sharma N. Hybrid machine learning approach for landslide prediction, Uttarakhand, India // Scientific reports. 2022. Vol. 12. No. 1. P. 20101. doi: 10.1038/s41598-022-22814-9
- Hadi F. A. A., Sidek L. M., Salih G. H. A. et al. Machine learning techniques for flood forecasting // Journal of Hydroinformatics. 2024. Vol. 26. No. 4. Pp. 779–799. doi: 10.2166/hydro.2024.208
- Lombardo L., Mai P. M. Presenting logistic regression-based landslide susceptibility results // Engineering Geology. 2018. Vol. 244. Pp. 14–24. doi: 10.1016/j.enggeo.2018.07.019
- Rahmati O., Kornejady A., Samadi M. et al. PMT: New analytical framework for automated evaluation of geo-environmental modelling approaches // The Science of the total environment. 2019. Vol. 664. Pp. 296–311. doi: 10.1016/j.scitotenv.2019.02.017
- Кюль Е. В., Езаов А. К., Канкулова Л. И. Теоретические основы геоэкологического мониторинга горных геосистем // Устойчивое развитие горных территорий. 2019. Т. 11. № 1. C. 36–43. doi: 10.21177/1998-4502-2019-11-1-36-43
- Lyutikova L. A. Methods for Improving the Efficiency of Neural Network Decision-Making // Advances in Automation IV. RusAutoCon 2022. Lecture Notes in Electrical Engineering – 2023. Vol. 986. Pp. 294–303. doi: 10.1007/978-3-031-22311-2_29
- Радеев Н. А. Предсказание лавинной опасности методами машинного обучения // Вестник НГУ. Серия: Информационные технологии. 2021. Т. 19. № 2. С. 92–101. doi: 10.25205/1818-7900-2021-19-2-92-101
- Журавлев Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. Т. 33. С. 5–68.
- Флах П. Машинное обучение: наука и искусство построения алгоритмов, которые извлекают знания из данных. М.: ДМК Пресс, 2015.
Дополнительные файлы
