Выявление трендов с помощью NLP как механизм поддержки принятия решений
- Авторы: Лобанова П.А.1, Кузьминов И.Ф.1, Каратецкая Е.Ю.1, Сабидаева Е.А.1, Анпилогов В.В.2
-
Учреждения:
- Национальный исследовательский университет «Высшая школа экономики»
- Публичное акционерное общество «Сбербанк России»
- Выпуск: № 4 (2022)
- Страницы: 88-98
- Раздел: Анализ текстовой и графической информации
- URL: https://ogarev-online.ru/2071-8594/article/view/270493
- DOI: https://doi.org/10.14357/20718594220409
- ID: 270493
Цитировать
Полный текст
Аннотация
В статье изложены принципы разработанного алгоритма выявления трендов на основе анализа больших текстовых данных и представления результата в удобных для лиц, принимающих решения (ЛПР) форматах, реализованных в системе интеллектуального анализа больших данных iFORA. Дается обзор существующих алгоритмов текстовой аналитики. Излагается предлагаемая и апробированная на десятках реализованных проектов математическая основа для выявления терминов, означающих тренды. Описываются подходы к кластеризации терминов на основе их векторов в пространстве Word2vec. Приводятся примеры двух ключевых визуализаций (семантические, тренд-карты), дающих представление о круге тем и трендах, характеризующих конкретную исследуемую область, как способ адаптации результатов анализа к задачам ЛПР. Обсуждаются ограничения и преимущества использования предложенного подхода для поддержки принятия решений, предлагаются направления для будущих исследований.
Ключевые слова
Полный текст

Об авторах
Полина Александровна Лобанова
Национальный исследовательский университет «Высшая школа экономики»
Автор, ответственный за переписку.
Email: plobanova@hse.ru
заместитель заведующего отделом, Институт статистических исследований и экономики знаний
Россия, МоскваИлья Филиппович Кузьминов
Национальный исследовательский университет «Высшая школа экономики»
Email: ikuzminov@hse.ru
кандидат географических наук, директор центра, Институт статистических исследований и экономики знаний
Россия, МоскваЕфросиния Юрьевна Каратецкая
Национальный исследовательский университет «Высшая школа экономики»
Email: ekarateczkaya@hse.ru
младший научный сотрудник, Институт статистических исследований и экономики
знаний
Елизавета Алексеевна Сабидаева
Национальный исследовательский университет «Высшая школа экономики»
Email: esabidaeva@hse.ru
стажер-исследователь, Институт статистических исследований и экономики знаний
Россия, МоскваВадим Васильевич Анпилогов
Публичное акционерное общество «Сбербанк России»
Email: anpilogov.v.v@sberbank.ru
руководитель направления по валидации, Центр валидации моделей корпоративно-инвестиционного бизнеса
Россия, МоскваСписок литературы
- Pappa G.L., Freitas A.A. Automating the Design of Data Mining Algorithms. Springer-Verlag Berlin Heidelberg. 2010. 187 p.
- Yuan Y., Sun P., Fan H. Automatic selection and evaluation on data mining algorithms // 2015 6th IEEE International Conference on Software Engineering and Service Science (ICSESS). IEEE. 2015. P. 29-32.
- Porter A.L., Zhang Y. Tech mining of science & technology information resources for future-oriented technology analyses // Futures research methodology version. 2015. Т. 3.
- Zhu D., Porter A. L. Automated extraction and visualization of information for technological intelligence and forecasting // Technological forecasting and social change. 2002. Т. 69. №. 5. P. 495-506.
- Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, A. Shelmanov, and A. Shvets 2014. Information retrieval for R&D support. In Professional search in the modern world. Springer, Cham. P.45–69.
- Newman N. C. et al. Comparing methods to extract technical content for technological intelligence //Journal of Engineering and Technology Management. 2014. Т. 32. P. 97-109.
- Tseng Y. H., Lin C. J., Lin Y. I. Text mining techniques for patent analysis //Information processing & management. 2007. Т. 43. №. 5. P. 1216-1247.
- Cooke P., Uranga M. G., Etxebarria G. Regional innovation systems: Institutional and organisational dimensions // Research policy. 1997. Т. 26. №. 4-5. P. 475-491.
- Kwakkel J. H. et al. Visualizing geo-spatial data in science, technology and innovation // Technological Forecasting and Social Change. 2014. Т. 81. P. 67-81.
- Feldman R. et al. Text mining at the term level // European Symposium on Principles of Data Mining and Knowledge Discovery. Springer, Berlin, Heidelberg. 1998. P. 65-73.
- Averbuch M. et al. Context-sensitive medical information retrieval // MEDINFO 2004. IOS Press. 2004. P. 282-286.
- Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, and A. Shelmanov. 2016. Exactus expert—search and analytical engine for research and development support. In Novel Applications of Intelligent Systems. Springer, Cham. P.269–285.
- Church K. W. A stochastic parts program and noun phrase parser for unrestricted text //International Conference on Acoustics, Speech, and Signal Processing. IEEE. 1988. P. 695-698.
- Wang B. et al. Identifying technological topics and institution-topic distribution probability for patent Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method // International journal on digital libraries. 2000. Т. 3. №. 2. P. 115-130.
- Javed Z., Afzal H. Biomedical text mining for concept identification from traditional medicine literature //2014 International Conference on Open Source Systems & Technologies. IEEE, 2014. P. 206-211.
- Rose S. et al. Automatic keyword extraction from individual documents //Text mining: applications and theory. 2010. Т. 1. P. 1-20.
- Salton G., Yu C. T. On the construction of effective vocabularies for information retrieval //Acm Sigplan Notices. 1973. Т. 10. №. 1. P. 48-60.
- Liu C. et al. Research of text classification based on improved TF-IDF algorithm //2018 IEEE International Conference of Intelligent Robotic and Control Engineering (IRCE). IEEE. 2018. P. 218-222.
- Kutuzov A. et al. Clustering of Russian adjective-noun constructions using word embeddings // Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics. 2017.
- Kumar P., Babber S. Information theoretic method of feature selection for text categorization //Int J Math Arch (IJMA). 2013. Т. 3. №. 12. P. 2229-5046.
- Turney P. D. Mining the web for synonyms: PMI-IR versus LSA on TOEFL //European conference on machine learning. Springer, Berlin, Heidelberg, 2001. P. 491-502.
- Ahmad K., Davies A. E. Weirdness in special-language text: Welsh radioactive chemicals texts as an exemplar // Internationales Institut får Terminologieforschung Journal. 1994. Т. 5. №. 2. P. 22-52.
- Steinhaus H. Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. 1956. III vol IV. P. 801-804.
- Han J., Kamber M., Pei J. Data mining concepts and techniques, Morgan Kaufmann Publishers //San Francisco, CA. 2001. P. 335-391.
- Bae S., Yi Y. Acceleration of word2vec using GPUs // International Conference on Neural Information Processing. Springer, Cham. 2016. P. 269-279.
- Waskom M. L. Seaborn: statistical data visualization //Journal of Open Source Software. 2021. Т. 6. №. 60. P. 3021.
Дополнительные файлы
