Кластеризация текстов финансовых сообщений

Обложка

Цитировать

Полный текст

Аннотация

Работа посвящена задаче кластеризации текстов финансовых сообщений алгоритмами машинного обучения. С помощью алгоритмов кластеризации можно выделить группы похожих финансовых сообщений, выделить среди них однотипные или подозрительные, а также использовать в дальнейшем анализе найденные кластеры, а не сами тексты сообщений. В работе используются такие алгоритмы кластеризации как K-means, DBSCAN и иерархический метод кластеризации. В качестве текстов финансовых сообщений в работе используется информация о банковских транзакциях. Ввиду того, что банковские проводки подчинены строгим правилам бухгалтерского учета, устанавливаемым Банком России, представляется возможным ввести метрику оценки качества кластеризации. Данная метрика позволяет ранжировать между собой качество кластеризации с помощью алгоритмов машинного обучения, а также подобрать параметры, используемые при обучении данных моделей. Отдельное внимание в статье уделено особенностям используемых данных и тому, каким образом эти особенности могут быть учтены в практической части. В практической части работы приводятся результаты применения моделей кластеризации с указанием оптимальных параметров данных алгоритмов. В заключении делается вывод о лучших алгоритмах кластеризации применительно к финансовым текстам.

Об авторах

Антон Александрович Егоркин

ФГБОУ ВО Российский государственный социальный университет

Email: 2-5@bk.ru
Москва

Список литературы

  1. АЛЬ ДАУД Д. Применение алгоритма кластеризации k-means для анализа вариативности языковой картины мира носителей арабского и русского языков: корпус-ный подход // Успехи гуманитарных наук. – 2024. – №4. – С. 84–90.
  2. ВИШНЯКОВ И.Э. Выявление и кластеризация шаблон-ных текстов в больших массивах сообщений // Вестник Московского государственного технического универси-тета им. Н.Э. Баумана. Серия Приборостроение. – 2022. – №4(141). – С. 20–35.
  3. ЕГОРКИН А.А. Определение центральности графа ал-горитмом PageRank с учетом весов связей // Управле-ние большими системами. – 2024. – Вып. 111. – С. 81–96.
  4. ЕГОРКИН А.А. Особенности использования алгоритма классификации k-means для данных, подчиненных сте-пенному закону распределения // Современная наука: ак-туальные проблемы теории и практики. Серия: Есте-ственные и технические науки. – 2023. – №9.– С. 65–69.
  5. ЕФРЕМОВА А.Н. Сравнительный анализ алгоритмов нечеткого сравнения строк // Труды Братского государ-ственного университета. Серия: Естественные и инже-нерные науки. – 2023. – Т. 1. – С. 45–50.
  6. ЖИЛОВ Р.А. Интеллектуальные методы кластеризации данных // Известия Кабардино-Балкарского научного центра РАН. – 2023. – №6(116). – С. 152–159.
  7. КУРОЧКИН С.В., ПАВЛОВ Н.А., ТКАЧЕНКО М.В. и др. Методы машинного обучения в риск-профилировании инвестора // AlterEconomics. – 2024. – Т. 21, №3. – С. 527–552.
  8. ПИМЕНОВ В.И. Использование искусственного интел-лекта в противодействии экстремистской деятельно-сти // Интеллектуальные информационные системы: теория и практика: Сборник научных статей по материа-лам V Международной конференции. – 2024. – С. 114–118.
  9. Положение Банка России от 24.11.2022 N 809-П. О плане счетов бухгалтерского учета для кредитных ор-ганизаций и порядке его применения.
  10. ПОНОМАРЕВ Д.С. Иерархическая кластеризация на языке R для производственно-экономических показате-лей пенитенциарной системы // Экономика. Информа-тика. – 2023. – Т.50, №3. – С. 655–668.
  11. САВЕЛЬЕВА М.Ю. Выявление направления искажения финансовых результатов в бухгалтерской отчетности компаний в регионах Сибирского федерального округа // Вестник Самарского государственного экономического университета. – 2020. – №4(186). – С. 109–123.
  12. ФЕДОРОВА Е.А., АФАНАСЬЕВ Д.О., ДЕМИН И.С. Раз-работка тонально-тематического словаря EcSentiThemeLex для анализа экономических текстов на русском языке // Прикладная информатика. – 2020. – Т. 15, №6(90). – С. 58–77.
  13. ACTKINSON B., GRIFFIN R.J. Detecting plumes in mobile air quality monitoring time series with density-based spatial clustering of applications with noise // Atmos. Meas. Tech. – 2023 – Vol. 16 – P. 3547–3559,
  14. BAPTISTA A., BRIÈRE G., BAUDOT A. Random walk with restart on multilayer networks: from node prioritisation to supervised link prediction and beyond // BMC Bioinformat-ics. – 2024. – 19 p.
  15. BAPTISTA A., GONZALEZ A., BAUDOT A. Universal Multilayer Network Exploration by Random Walk with Re-start // Commun Phys. – 2022. – Vol. 5. – 10 p.
  16. BUDIMAN F. Parameters Testing Optimization Using Cross Validation and Grid Search to Improve Multiclass Classifi-cation // Scientific Visualization. – 2019. – P. 80–90
  17. IKOTUN A.M., EZUGWU A.E., ABUALIGAH L. et al. K-means clustering algorithms: A comprehensive review, variants analysis, and advances in the era of big data // Kean Publications. – 2023 – P. 178–210.
  18. TAN P.N., STEINBACH M.M., KUMAR V. Introduction to data mining // Pearson Education. – 2023. – 175 p.
  19. WARD J.H. Hierarchical grouping to optimize an objective function // American Statistical Association. – 1963 – 236 p.
  20. YUBO ZHUANG, XIAOHUI CHEN, YUN YANG et al. Sta-tistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming // Published as a conference paper at ICLR. – 2024 – 14 p.
  21. WENTAO YE1, JIAJU ZHANG Shannon entropy in qua-siparticle states of quantum chains // Journal of Physics A Mathematical General. – 2024 – 41 p.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial 4.0 International License.

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).