Automatic Generation of Semantically Annotated Collocation Corpus

Diana Aleksandrovna Zaripova; Зарипова Диана Александровна; Natal'ya Valentinovna Lukashevich; Лукашевич Наталья Валентиновна

doi:10.25136/2409-8698.2023.11.44007

Автоматизированное создание семантически размеченного корпуса словосочетаний

Авторы: Зарипова Д.А.¹^,2, Лукашевич Н.В.³
Учреждения:
1. Московский Государственный Университет имени М. В. Ломоносова
2. ООО "Юнистар Диджитал"
3. Московский Государственный Университет имени М.В. Ломоносова
Выпуск: № 11 (2023)
Страницы: 113-125
Раздел: Статьи
URL: https://ogarev-online.ru/2409-8698/article/view/380014
DOI: https://doi.org/10.25136/2409-8698.2023.11.44007
EDN: https://elibrary.ru/QRBQOI
ID: 380014

Цитировать

Полный текст

Аннотация
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Задача автоматического разрешения многозначности является первым и ключевым этапом семантического анализа текста. Она заключается в выборе одного из значений многозначного слова в контексте и вызывает затруднения даже у людей-аннотаторов. Для обучения и тестирования моделей на основе машинного обучения, которые демонстрируют самые высокие показатели качества, необходимы большие объёмы данных с семантической разметкой. Ручная разметка по значениям оказывается трудоёмкой, дорогой и занимает много времени. Поэтому важно разрабатывать и тестировать подходы к автоматической и полуавтоматической семантической разметке. Среди возможных источников информации для такой разметки семантически родственные слова, а также коллокации, в которые входит слово. Предметом настоящего исследования являются корпуса коллокаций с семантической разметкой. Целью работы является разработка и тестирование подхода к автоматическому порождению таких корпусов на основе информации о родственных словах из тезауруса. Основным методом данного исследования является корпусный, также в рамках исследования был проведён ряд экспериментов с помощью языка программирования Python. В статье описывается процесс автоматического создания корпуса коллокаций с семантической разметкой на материале русского языка. Для разрешения многозначности слов в пределах коллокаций используются родственные слова с опорой на тезаурус RuWordNet. Этот же тезаурус выступает источником инвентарей значений. Родственные слова из тезауруса голосуют за то или иное значение слова, затем их голоса взвешиваются с помощью разных методов. Описанные методы позволяют достичь F1-меры 80% и добавить порядка 23% коллокаций с неснятой многозначностью в корпус. Семантически размеченные корпуса коллокаций, созданные в автоматическом режиме, позволят упростить подготовку размеченных данных для обучения и оценки моделей автоматического разрешения многозначности, а также могут использоваться как источник знаний в моделях на основе знаний. Таким образом, создание размеченных корпусов коллокаций в автоматическом режиме, в том числе для русского языка, представляется перспективным направлением исследований.

Ключевые слова

автоматическая обработка языка, автоматический семантический анализ, автоматическое разрешение неоднозначности, семантическая разметка, автоматическое порождение корпуса, корпус словосочетаний, инвентарь значений, семантически родственные слова, SyntagNet, тезаурус

Об авторах

Диана Александровна Зарипова

Московский Государственный Университет имени М. В. Ломоносова; ООО "Юнистар Диджитал"

Email: diana.ser.sar96@gmail.com
ORCID iD: 0000-0003-1121-1420
аспирант; кафедра фундаментальной и прикладной лингвистики; программист-лингвист;

Наталья Валентиновна Лукашевич

Московский Государственный Университет имени М.В. Ломоносова

Email: louk_nat@mail.ru
профессор; кафедра теоретической и прикладной лингвистики;

Список литературы

Pu X., Pappas N., Henderson J., Popescu-Belis A. Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation // Transactions of the Association for Computational Linguistics. 2018. V. 6. Pp. 635-649.
Blloshmi R., Pasini T., Campolungo N., Banerjee S., Navigli R., Pasi G. IR like a SIR: Sense-enhanced Information Retrieval for Multiple Languages // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. Pp. 1030-1041.
Seifollahi S., Shajari M. Word Sense Disambiguation Application in Sentiment Analysis of News Headlines: an Applied Approach to FOREX Market Prediction // Journal of Intelligent Information Systems. 2019. V. 52. Pp. 57-83.
Maru M., Scozzafava F., Martelli F., Navigli R. SyntagNet: Challenging Supervised Word Sense Disambiguation with Lexical-semantic Combinations // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 2019. Pp. 3534-3540.
Yarowsky D. One Sense per Collocation // Proceedings of the Workshop on Human Language Technology. 1993. Pp. 266-271.
Martinez D., Agirre E. One Sense per Collocation and Genre/Topic Variations // 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. 2000. Pp. 207-215.
Leech G.N. 100 Million Words of English: the British National Corpus (BNC) // Language Research. 1992. No. 28(1). Pp. 1-13.
Haveliwala T.H. Topic-sensitive PageRank // Proceedings of the 11th International Conference on World Wide Web. 2002. Pp. 517-526.
Agirre E., López de Lacalle O., Soroa A. Random Walks for Kknowledge-based Word Sense Disambiguation // Computational Linguistics. 2014. V. 40. No. 1. Pp. 57-84.
Yuan D., Richardson J., Doherty R., Evans C., Altendorf E. Semi-supervised Word Sense Disambiguation with Neural Models // Proceedings of COLING. 2016. Pp. 1374-1385.
Bolshina A., Loukachevitch N. Monosemous Relatives Approach to Automatic Data Labelling for Word Sense Disambiguation in Russian // Linguistic Forum 2020: Language and Artificial Intelligence. 2020. Pp. 12-13.
Kirillovich A., Loukachevitch N., Kulaev M., Bolshina A., Ilvovsky D. Sense-Annotated Corpus for Russian // Proceedings of the 5th International Conference on Computational Linguistics in Bulgaria (CLIB 2022). 2022. Pp. 130-136.
Loukachevitch N., Lashevich G., Gerasimova A., Ivanov V., Dobrov B. Creating Russian WordNet by Conversion // Computational Linguistics and Intellectual Technologies: Papers from the Annual Conference “Dialogue”. 2016. Pp. 405-415.
Liu X.Y., Zhou Y.M., Zheng R.S. Measuring Semantic Similarity in WordNet // 2007 International Conference on Machine Learning and Cybernetics. 2007. V. 6. Pp. 3431-3435.
Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems. 2013. V. 26. Pp. 3111-3119.
Kutuzov A., Kuzmenko E. WebVectors: a Toolkit for Building Web Interfaces for Vector Semantic Models // Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016, Revised Selected Papers 5. Springer International Publishing. 2017. V. 661. Pp. 155-161.
Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information // Transactions of the Association for Computational Linguistics. 2017. V. 5. Pp. 135-146.
Devlin J., Chang M.W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. 2019. V. 1. Pp. 4171-4186.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

№ 12 (2025)