Автоматическая сегментация морфем для русского языка: Может ли алгоритм заменить экспертов?

Обложка

Цитировать

Полный текст

Аннотация

Введение: Было предложено множество алгоритмов для задачи автоматической сегментации морфем русских слов. Однако из-за различий в формулировке задачи и используемых наборах данных сравнение их качества остается сложной задачей. Неясно, являются ли ошибки в моделях следствием неэффективности самих алгоритмов или результатом неточностей и несоответствий в словарях морфем. Таким образом, остается открытым вопрос, можно ли использовать какой-либо алгоритм для автоматического расширения существующих словарей морфем.



Цель: Сравнить различные существующие алгоритмы сегментации морфем для русского языка и проанализировать их применимость для автоматического дополнения существующих словарей морфем.



Результаты: В данном исследовании мы сравнили несколько современных алгоритмов машинного обучения, используя три набора данных, основанных на различных парадигмах сегментации. Было проведено два эксперимента, каждый из которых включал пятикратную перекрестную проверку. В первом эксперименте мы случайным образом разделили набор данных на пять подмножеств. Во втором эксперименте все слова с одним корнем были сгруппированы в одно подмножество, при этом слова с несколькими корнями были исключены. В ходе перекрестной проверки модели обучались на четырех подмножествах и тестировались на оставшемся. В обоих экспериментах алгоритмы, основанные на ансамблях сверточных нейронных сетей, неизменно демонстрировали наивысшую производительность. Однако мы наблюдали значительное снижение точности при тестировании на словах, содержащих неизвестные корни. Также было обнаружено, что на случайно выбранном наборе слов производительность этих алгоритмов была сопоставима с результатами экспертов-людей.



Вывод: Наши результаты показывают, что, хотя автоматические методы в среднем достигли качества, близкого к экспертному уровню, отсутствие семантического анализа делает невозможным их использование для автоматического расширения словаря без участия экспертов. Проведенное исследование выявило ключевые проблемы, требующие дальнейшего изучения: низкая производительность на неизвестных корнях и аббревиатурах. В то же время, если в тестовом наборе данных предполагается небольшое количество неизвестных корней, рекомендуется использовать ансамбль сверточных нейронных сетей. Полученные результаты могут быть применены при разработке морфемно-ориентированных токенизаторов и систем анализа сложности текстов.

Об авторах

Дмитрий Алексеевич Морозов

Новосибирский государственный университет

Email: morozowdm@gmail.com
ORCID iD: 0000-0003-4464-1355
Новосибирск, Россия

Тимур Александрович Гарипов

Новосибирский государственный университет

Email: t.garipov@g.nsu.ru
ORCID iD: 0009-0008-4527-2268
Новосибирск, Россия

Ольга Николаевна Ляшевская

НИУ ВШЭ; Институт русского языка имени В. В. Виноградова РАН

Email: olesar@yandex.ru
ORCID iD: 0000-0001-8374-423X
Москва, Россия; Москва, Россия

Светлана Олеговна Савчук

Институт русского языка имени В. В. Виноградова РАН

Email: savsvetlana@mail.ru
ORCID iD: 0000-0003-0464-7269
Москва, Россия

Борис Леонидович Иомдин

независимый исследователь

Email: lingnarod@gmail.com
ORCID iD: 0000-0002-1767-5480

Анна Валерьевна Глазкова

Тюменский государственный университет

Email: a.v.glazkova@utmn.ru
ORCID iD: 0000-0001-8409-6457
Тюмень, Россия

Список литературы

  1. Bakulina, G. A. (2012). Morfemnyy razbor slova: novye podkhody - novye vozmozhnosti [Morpheme segmentation: new approaches - new opportunities]. Nachal'naya shkola, (4), 29-32.
  2. Batsuren, K., Bella, G., Arora, A., Martinovic, V., Gorman, K., Žabokrtský, Z., Ganbold, A., Dohnalová, Š., Ševčíková, M., Pelegrinová, K., Giunchiglia, F., Cotterell, R., & Vylomova, E. (2022). The SIGMORPHON 2022 shared task on morpheme segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 103-116). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.sigmorphon-1.11
  3. Bodnár, J. (2022). JB132 submission to the SIGMORPHON 2022 shared task 3 on morphological segmentation. Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 152-156). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.sigmorphon-1.17
  4. Bolshakov, I.A. (2013). Krossleksika: Universum sviazi mezhdu russkimi slovami [Crosslexica: a universe of links between russian words]. Biznes-informatika, 3(25), 12-19.
  5. Bolshakova, E., Sapin, A. (2019). Bi-LSTM model for morpheme segmentation of russian words. In Ustalov, D., Filchenkov, A., Pivovarova, L. (Eds.), Artificial Intelligence and Natural Language. AINL 2019.Communications in Computer and Information Science (pp. 151-160). Springer. DOI:https://doi.org/10.1007/978-3-030-34518-1_11
  6. Bolshakova, E., Sapin, A. (2021). Building a Combined morphological model for Russian word forms. In Burnaev, E. et al. (Eds), Analysis of Images, Social Networks and Texts. AIST 2021. Lecture Notes in Computer Science (vol. 13217, pp. 45-55). Springer. DOI:https://doi.org/10.1007/978-3-031-16500-9_5
  7. Bolshakova, E.I., & Sapin, A.S. (2019).Comparing models of morpheme analysis for Russian words based on machine learning.Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue 2019 (pp. 104-113).Russian State University for the Humanities.
  8. Creutz, M., & Lagus, K. (2002). Unsupervised discovery of morphemes. In Proceedings of the ACL-02 Workshop on Morphological and Phonological Learning (pp. 21-30). Association for Computational Linguistics. DOI:https://doi.org/10.3115/1118647.1118650
  9. Cotterell, R., Vieira, T., & Schütze, H. (2016). A joint model of orthography and morphological segmentation. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 664-669). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/N16-1080
  10. Garipov, T., Morozov, D., & Glazkova, A. (2023). Generalization ability of CNN-based morpheme segmentation. 2023 Ivannikov Ispras Open Conference (ISPRAS) (pp. 58-62). IEEE. DOI:https://doi.org/10.1109/ISPRAS60948.2023.10508171
  11. Girrbach, L. (2022). SIGMORPHON 2022 shared task on morpheme segmentation submission description: Sequence labelling for word-level morpheme segmentation. Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 124-130). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.sigmorphon-1.13
  12. Grönroos, S.-A., Virpioja, S., & Kurimo, M. (2020). Morfessor EM+Prune: Improved subword segmentation with expectation maximization and pruning. Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3944-3953). European Language Resources Association.
  13. Imani, A., Lin, P., Kargaran, A. H., Severini, S., Sabet, M. J., Kassner, N., Ma, C., Schmid, H., Martins, A., Yvon, F., & Schütze, H. (2023). Glot500: Scaling multilingual corpora and language models to 500 languages. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (vol. 1: Long Papers, pp. 1082-1117). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2023.acl-long.61
  14. Iomdin, B. L. (2019). How to define words with the same root? Russian Speech, (1), 109-115. DOI:https://doi.org/10.31857/S013161170003980-7
  15. Kudo, T. (2018). Subword regularization: Improving neural network translation models with multiple subword candidates. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (vol. 1: Long Papers, pp. 66-75). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/P18-1007
  16. Kuratov, Y. & Arkhipov, M. (2019). Adaptation of deep bidirectional multilingual transformers for Russian language.Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue 2019 (pp. 333-339).Russian State University for the Humanities.
  17. Kuznetsova, A. I. & Efremova, T. F. (1986). Dictionary of morphemes of the Russian language.Russkii yazyk.
  18. Levine, L. (2022). Sharing data by language family: Data augmentation for romance language morpheme segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 117-123). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.sigmorphon-1.12
  19. Matthews, A., Neubig, G., & Dyer, C. (2018). Using Morphological knowledge in open-vocabulary neural language models. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (vol. 1, pp. 1435-1445). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/N18-1130
  20. Morozov, D. A., Smal, I. A., Garipov, T. A., & Glazkova, A. V. (2024). Keywords, morpheme parsing and syntactic trees: Features for text complexity assessment. Modeling and Analysis of Information Systems, 31(2), 206-220. DOI:https://doi.org/10.18255/1818-1015-2024-2-206-220
  21. Peters, B. & Martins, A. F. T. (2022). Beyond characters: Subword-level morpheme segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 131-138). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.sigmorphon-1.14
  22. Pranjić, M., Robnik-Šikonja M., & Pollak, S. (2024). LLMSegm: Surface-level morphological segmentation using large language model. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (pp. 10665-10674). ELRA and ICCL.
  23. Savchuk, S. O., Arkhangelskiy, T., Bonch-Osmolovskaya, A. A., Donina, O. V., Kuznetsova, Yu. N., Lyashevskaya, O. N., Orekhov, B. V., & Podryadchikova, M. V. (2024).Russian national corpus 2.0: New opportunities and development prospects. Voprosy Jazykoznanija, 2, 7-34. DOI:https://doi.org/10.31857/0373-658X.2024.2.7-34
  24. Schuster, M. & Nakajima, K. (2012). Japanese and Korean voice search. In 2012 IEEE international conference on acoustics, speech and signal processing (pp. 5149-5152). IEEE. DOI:https://doi.org/10.1109/ICASSP.2012.6289079
  25. Sorokin, A. & Kravtsova, A. (2018). Deep convolutional networks for supervised morpheme segmentation of Russian language. In D. Ustalov, A. Filchenkov, L. Pivovarova, & J. Žižka, (Eds.), Artificial Intelligence and Natural Language (pp. 3-10). Springer. DOI:https://doi.org/10.1007/978-3-030-01204-5_1
  26. Sorokin, A. (2022). Improving morpheme segmentation using BERT embeddings. In E. Burnaev, D. Ignatov, S. Ivanov, M. Khachay, O. Koltsova, A. Kutuzov, S.Kuznetsov, N. Loukachevitch, A. Napoli, A. Panchenko, P. Pardalos, J. Saramäki, A. Savchenko, E. Tsymbalov, & E. Tutubalina, (Eds.), Analysis of images, social networks and texts (pp. 148-161). Springer. DOI:https://doi.org/10.1007/978-3-031-16500-9_13
  27. Tikhonov, A. N. (1990). Slovoobrazovatel‘nyi slovar' russkogo yazyka [Word Formation Dictionary of Russian language].Russkiy yazyk.
  28. Vinokur, G. O. (1946). Zametki po russkomu slovoobrazovaniyu [Notes on Russian word formation]. Izvestiya Akademii nauk SSSR. Seriya literatury i yazyka, V(4), 317-317.
  29. Wehrli, S., Clematide, S., & Makarov, P. (2022). CLUZH at SIGMORPHON 2022 shared tasks on morpheme segmentation and inflection generation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 212-219). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.sigmorphon-1.21
  30. Zundi, T. & Avaajargal, C. (2022). Word-level Morpheme segmentation using Transformer neural network. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 139-143). Association for Computational Linguistics. DOI:https://doi.org/10.18653/v1/2022.sigmorphon-1.15

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».