Выявление трендов с помощью NLP как механизм поддержки принятия решений

Обложка

Цитировать

Полный текст

Аннотация

В статье изложены принципы разработанного алгоритма выявления трендов на основе анализа больших текстовых данных и представления результата в удобных для лиц, принимающих решения (ЛПР) форматах, реализованных в системе интеллектуального анализа больших данных iFORA. Дается обзор существующих алгоритмов текстовой аналитики. Излагается предлагаемая и апробированная на десятках реализованных проектов математическая основа для выявления терминов, означающих тренды. Описываются подходы к кластеризации терминов на основе их векторов в пространстве Word2vec. Приводятся примеры двух ключевых визуализаций (семантические, тренд-карты), дающих представление о круге тем и трендах, характеризующих конкретную исследуемую область, как способ адаптации результатов анализа к задачам ЛПР. Обсуждаются ограничения и преимущества использования предложенного подхода для поддержки принятия решений, предлагаются направления для будущих исследований.

Полный текст

Доступ закрыт

Об авторах

Полина Александровна Лобанова

Национальный исследовательский университет «Высшая школа экономики»

Автор, ответственный за переписку.
Email: plobanova@hse.ru

заместитель заведующего отделом, Институт статистических исследований и экономики знаний

Россия, Москва

Илья Филиппович Кузьминов

Национальный исследовательский университет «Высшая школа экономики»

Email: ikuzminov@hse.ru

кандидат географических наук, директор центра, Институт статистических исследований и экономики знаний

Россия, Москва

Ефросиния Юрьевна Каратецкая

Национальный исследовательский университет «Высшая школа экономики»

Email: ekarateczkaya@hse.ru

младший научный сотрудник, Институт статистических исследований и экономики
знаний

Россия, Москва

Елизавета Алексеевна Сабидаева

Национальный исследовательский университет «Высшая школа экономики»

Email: esabidaeva@hse.ru

стажер-исследователь, Институт статистических исследований и экономики знаний

Россия, Москва

Вадим Васильевич Анпилогов

Публичное акционерное общество «Сбербанк России»

Email: anpilogov.v.v@sberbank.ru

руководитель направления по валидации, Центр валидации моделей корпоративно-инвестиционного бизнеса

Россия, Москва

Список литературы

  1. Pappa G.L., Freitas A.A. Automating the Design of Data Mining Algorithms. Springer-Verlag Berlin Heidelberg. 2010. 187 p.
  2. Yuan Y., Sun P., Fan H. Automatic selection and evaluation on data mining algorithms // 2015 6th IEEE International Conference on Software Engineering and Service Science (ICSESS). IEEE. 2015. P. 29-32.
  3. Porter A.L., Zhang Y. Tech mining of science & technology information resources for future-oriented technology analyses // Futures research methodology version. 2015. Т. 3.
  4. Zhu D., Porter A. L. Automated extraction and visualization of information for technological intelligence and forecasting // Technological forecasting and social change. 2002. Т. 69. №. 5. P. 495-506.
  5. Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, A. Shelmanov, and A. Shvets 2014. Information retrieval for R&D support. In Professional search in the modern world. Springer, Cham. P.45–69.
  6. Newman N. C. et al. Comparing methods to extract technical content for technological intelligence //Journal of Engineering and Technology Management. 2014. Т. 32. P. 97-109.
  7. Tseng Y. H., Lin C. J., Lin Y. I. Text mining techniques for patent analysis //Information processing & management. 2007. Т. 43. №. 5. P. 1216-1247.
  8. Cooke P., Uranga M. G., Etxebarria G. Regional innovation systems: Institutional and organisational dimensions // Research policy. 1997. Т. 26. №. 4-5. P. 475-491.
  9. Kwakkel J. H. et al. Visualizing geo-spatial data in science, technology and innovation // Technological Forecasting and Social Change. 2014. Т. 81. P. 67-81.
  10. Feldman R. et al. Text mining at the term level // European Symposium on Principles of Data Mining and Knowledge Discovery. Springer, Berlin, Heidelberg. 1998. P. 65-73.
  11. Averbuch M. et al. Context-sensitive medical information retrieval // MEDINFO 2004. IOS Press. 2004. P. 282-286.
  12. Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, and A. Shelmanov. 2016. Exactus expert—search and analytical engine for research and development support. In Novel Applications of Intelligent Systems. Springer, Cham. P.269–285.
  13. Church K. W. A stochastic parts program and noun phrase parser for unrestricted text //International Conference on Acoustics, Speech, and Signal Processing. IEEE. 1988. P. 695-698.
  14. Wang B. et al. Identifying technological topics and institution-topic distribution probability for patent Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method // International journal on digital libraries. 2000. Т. 3. №. 2. P. 115-130.
  15. Javed Z., Afzal H. Biomedical text mining for concept identification from traditional medicine literature //2014 International Conference on Open Source Systems & Technologies. IEEE, 2014. P. 206-211.
  16. Rose S. et al. Automatic keyword extraction from individual documents //Text mining: applications and theory. 2010. Т. 1. P. 1-20.
  17. Salton G., Yu C. T. On the construction of effective vocabularies for information retrieval //Acm Sigplan Notices. 1973. Т. 10. №. 1. P. 48-60.
  18. Liu C. et al. Research of text classification based on improved TF-IDF algorithm //2018 IEEE International Conference of Intelligent Robotic and Control Engineering (IRCE). IEEE. 2018. P. 218-222.
  19. Kutuzov A. et al. Clustering of Russian adjective-noun constructions using word embeddings // Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics. 2017.
  20. Kumar P., Babber S. Information theoretic method of feature selection for text categorization //Int J Math Arch (IJMA). 2013. Т. 3. №. 12. P. 2229-5046.
  21. Turney P. D. Mining the web for synonyms: PMI-IR versus LSA on TOEFL //European conference on machine learning. Springer, Berlin, Heidelberg, 2001. P. 491-502.
  22. Ahmad K., Davies A. E. Weirdness in special-language text: Welsh radioactive chemicals texts as an exemplar // Internationales Institut får Terminologieforschung Journal. 1994. Т. 5. №. 2. P. 22-52.
  23. Steinhaus H. Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. 1956. III vol IV. P. 801-804.
  24. Han J., Kamber M., Pei J. Data mining concepts and techniques, Morgan Kaufmann Publishers //San Francisco, CA. 2001. P. 335-391.
  25. Bae S., Yi Y. Acceleration of word2vec using GPUs // International Conference on Neural Information Processing. Springer, Cham. 2016. P. 269-279.
  26. Waskom M. L. Seaborn: statistical data visualization //Journal of Open Source Software. 2021. Т. 6. №. 60. P. 3021.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Семантическая карта по направлению «Научно-технологические тренды мировой науки», построенная на массиве научных статей в базе MAG за 2019–2020 гг.

Скачать (346KB)
3. Рис. 2. Тренд-карта по направлению «Научно-технологические тренды мировой науки», построенная на массиве научных статей в базе MAG за 2019–2020 гг.

Скачать (399KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».