Автоматизированное создание семантически размеченного корпуса словосочетаний

Обложка

Цитировать

Полный текст

Аннотация

Задача автоматического разрешения многозначности является первым и ключевым этапом семантического анализа текста. Она заключается в выборе одного из значений многозначного слова в контексте и вызывает затруднения даже у людей-аннотаторов. Для обучения и тестирования моделей на основе машинного обучения, которые демонстрируют самые высокие показатели качества, необходимы большие объёмы данных с семантической разметкой. Ручная разметка по значениям оказывается трудоёмкой, дорогой и занимает много времени. Поэтому важно разрабатывать и тестировать подходы к автоматической и полуавтоматической семантической разметке. Среди возможных источников информации для такой разметки семантически родственные слова, а также коллокации, в которые входит слово. Предметом настоящего исследования являются корпуса коллокаций с семантической разметкой. Целью работы является разработка и тестирование подхода к автоматическому порождению таких корпусов на основе информации о родственных словах из тезауруса. Основным методом данного исследования является корпусный, также в рамках исследования был проведён ряд экспериментов с помощью языка программирования Python. В статье описывается процесс автоматического создания корпуса коллокаций с семантической разметкой на материале русского языка. Для разрешения многозначности слов в пределах коллокаций используются родственные слова с опорой на тезаурус RuWordNet. Этот же тезаурус выступает источником инвентарей значений. Родственные слова из тезауруса голосуют за то или иное значение слова, затем их голоса взвешиваются с помощью разных методов. Описанные методы позволяют достичь F1-меры 80% и добавить порядка 23% коллокаций с неснятой многозначностью в корпус. Семантически размеченные корпуса коллокаций, созданные в автоматическом режиме, позволят упростить подготовку размеченных данных для обучения и оценки моделей автоматического разрешения многозначности, а также могут использоваться как источник знаний в моделях на основе знаний. Таким образом, создание размеченных корпусов коллокаций в автоматическом режиме, в том числе для русского языка, представляется перспективным направлением исследований.

Об авторах

Диана Александровна Зарипова

Московский Государственный Университет имени М. В. Ломоносова; ООО "Юнистар Диджитал"

Email: diana.ser.sar96@gmail.com
ORCID iD: 0000-0003-1121-1420
аспирант; кафедра фундаментальной и прикладной лингвистики; программист-лингвист;

Наталья Валентиновна Лукашевич

Московский Государственный Университет имени М.В. Ломоносова

Email: louk_nat@mail.ru
профессор; кафедра теоретической и прикладной лингвистики;

Список литературы

  1. Pu X., Pappas N., Henderson J., Popescu-Belis A. Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation // Transactions of the Association for Computational Linguistics. 2018. V. 6. Pp. 635-649.
  2. Blloshmi R., Pasini T., Campolungo N., Banerjee S., Navigli R., Pasi G. IR like a SIR: Sense-enhanced Information Retrieval for Multiple Languages // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. Pp. 1030-1041.
  3. Seifollahi S., Shajari M. Word Sense Disambiguation Application in Sentiment Analysis of News Headlines: an Applied Approach to FOREX Market Prediction // Journal of Intelligent Information Systems. 2019. V. 52. Pp. 57-83.
  4. Maru M., Scozzafava F., Martelli F., Navigli R. SyntagNet: Challenging Supervised Word Sense Disambiguation with Lexical-semantic Combinations // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 2019. Pp. 3534-3540.
  5. Yarowsky D. One Sense per Collocation // Proceedings of the Workshop on Human Language Technology. 1993. Pp. 266-271.
  6. Martinez D., Agirre E. One Sense per Collocation and Genre/Topic Variations // 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. 2000. Pp. 207-215.
  7. Leech G.N. 100 Million Words of English: the British National Corpus (BNC) // Language Research. 1992. No. 28(1). Pp. 1-13.
  8. Haveliwala T.H. Topic-sensitive PageRank // Proceedings of the 11th International Conference on World Wide Web. 2002. Pp. 517-526.
  9. Agirre E., López de Lacalle O., Soroa A. Random Walks for Kknowledge-based Word Sense Disambiguation // Computational Linguistics. 2014. V. 40. No. 1. Pp. 57-84.
  10. Yuan D., Richardson J., Doherty R., Evans C., Altendorf E. Semi-supervised Word Sense Disambiguation with Neural Models // Proceedings of COLING. 2016. Pp. 1374-1385.
  11. Bolshina A., Loukachevitch N. Monosemous Relatives Approach to Automatic Data Labelling for Word Sense Disambiguation in Russian // Linguistic Forum 2020: Language and Artificial Intelligence. 2020. Pp. 12-13.
  12. Kirillovich A., Loukachevitch N., Kulaev M., Bolshina A., Ilvovsky D. Sense-Annotated Corpus for Russian // Proceedings of the 5th International Conference on Computational Linguistics in Bulgaria (CLIB 2022). 2022. Pp. 130-136.
  13. Loukachevitch N., Lashevich G., Gerasimova A., Ivanov V., Dobrov B. Creating Russian WordNet by Conversion // Computational Linguistics and Intellectual Technologies: Papers from the Annual Conference “Dialogue”. 2016. Pp. 405-415.
  14. Liu X.Y., Zhou Y.M., Zheng R.S. Measuring Semantic Similarity in WordNet // 2007 International Conference on Machine Learning and Cybernetics. 2007. V. 6. Pp. 3431-3435.
  15. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems. 2013. V. 26. Pp. 3111-3119.
  16. Kutuzov A., Kuzmenko E. WebVectors: a Toolkit for Building Web Interfaces for Vector Semantic Models // Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016, Revised Selected Papers 5. Springer International Publishing. 2017. V. 661. Pp. 155-161.
  17. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information // Transactions of the Association for Computational Linguistics. 2017. V. 5. Pp. 135-146.
  18. Devlin J., Chang M.W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. 2019. V. 1. Pp. 4171-4186.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).