Мультиязычность в языковом моделировании: задачи,данные и возможности для типологических ресурсов

Обложка

Цитировать

Полный текст

Аннотация

Последние достижения в области машинного обучения значительно улучшили возможности больших языковых моделей (Large Language Models, LLM), в том числе способности машинного перевода и машинного чтения. Тем не менее большинство языков мира остаются не покрытыми основными ресурсами, необходимыми для построения качественных речевых технологий и языковых моделей: корпусами текстов, аннотированными датасетами, достаточным количеством записей звучащей речи. Такие языки — языки с ограниченными письменными ресурсами — называют малоресурсными. В настоящей статье мы представляем обзор современного состояния мультиязычности и поддержки малоресурсных языков в языковых моделях, а также проводим оценку способностей текущих моделей извлекать и классифицировать информацию из зачастую единственно доступного источника знаний для малоресурсных языков —дескриптивных грамматик. Мы предлагаем подход на основе метода дополненной генерации (Retrieval-Augmented Generation, RAG), позволяющий использовать такие описания для последующих задач, таких как машинный перевод. Наши тесты охватывают грамматические описания 248 языков из 142 языковых семей, фокусируясь на типологических характеристиках баз данных WALS [1] и Grambank [2]. Предлагаемый в работе подход обеспечивает первую комплексную оценку способности языковых моделей точно интерпретировать и извлекать лингвистические признаки в контексте, создавая критически важный ресурс для масштабирования технологий на малоресурсные языки. Код и данные доступны публично: https://github.com/al-the-eigenvalue/RAG-on-grammars.

Об авторах

Т. О. Шаврина

Института языкознания РАН

Автор, ответственный за переписку.
Email: rybolos@gmail.com

кандидат филологических наук, старший научный сотрудник

Россия, Москва

А. А. Корнилов

Высшей школы экономики

Email: albert.kornilov801@gmail.com

бакалавр

Россия, Москва

Список литературы

  1. Dryer M.S., Haspelmath M. (eds.). WALS Online (v2020.4) [Data set]. Zenodo, 2013. doi: 10.5281/zenodo.13950591.
  2. Skirgård H., Haynie H., Passmore S. et al. Grambank reveals the importance of genealogical constraints on linguistic diversity and highlights the impact of language loss // Science Advances. 2023. Vol. 9. № 16. Article eadg6175. doi: 10.1126/sciadv.adg6175.
  3. Ebrahimi A. et al. Findings of the AmericasNLP 2023 Shared Task on Machine Translation into Indigenous Languages // Proceedings of the Workshop on Natural Language Processing for Indigenous Languages of the Americas (AmericasNLP). Toronto, Canada: Association for Computational Linguistics, 2023. P. 206–219.
  4. Lovenia H. et al. SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages // Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP). Miami, USA: Association for Computational Linguistics, 2024. P. 5155–5203.
  5. Nekoto W. et al. Participatory Research for Low-Resourced Machine Translation: A Case Study in African Languages // Findings of the Association for Computational Linguistics: EMNLP 2020. Online: Association for Computational Linguistics, 2020. P. 2144–2160.
  6. Winata G.I. et al. NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Dubrovnik, Croatia: Association for Computational Linguistics, 2023. P. 815–834.
  7. Bapna A. et al. Building machine translation systems for the next thousand languages. arXiv preprint arXiv:2205.03983, 2022.
  8. Chen W. et al. Towards Robust Speech Representation Learning for Thousands of Languages // Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP). Miami, USA: Association for Computational Linguistics, 2024. P. 10205–10224.
  9. Garrette D., Mielens J., Baldridge J. Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013). Vol. 1: Long Papers. Sofia, Bulgaria: Association for Computational Linguistics, 2013. P. 583–592.
  10. Tanzer G., Suzgun M., Visser E., Jurafsky D., Melas-Kyriazi L. A benchmark for learning to translate a new language from one grammar book. arXiv preprint arXiv:2309.16575, 2023.
  11. Muennighoff N., Tazi N., Magne L., Reimers N. MTEB: Massive Text Embedding Benchmark // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Dubrovnik, Croatia: Association for Computational Linguistics, 2023. P. 2014–2037.
  12. Lewis P., Perez E., Piktus A., Petroni F., Karpukhin V., Goyal N., Kiela D. Retrieval-augmented generation for knowledge-intensive NLP tasks // Advances in Neural Information Processing Systems (NeurIPS). 2020. Vol. 33. P. 9459–9474.
  13. Zhang K., Choi Y., Song Z., He T., Wang W.Y., Li L. Hire a Linguist!: Learning Endangered Languages in LLMs with In-Context Linguistic Descriptions // Findings of the Association for Computational Linguistics: ACL 2024. Bangkok, Thailand: Association for Computational Linguistics, 2024. P. 15654–15669.
  14. Ponti E.M., Glavaš G., Majewska O., Liu Q., Vulić I., Korhonen A. XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics, 2020. P. 2362–2376.
  15. Virk S.M., Foster D., Sheikh M.A., Saleem R. A Deep Learning System for Automatic Extraction of Typological Linguistic Information from Descriptive Grammars // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021). Online: INCOMA Ltd., 2021. P. 1480–1489.
  16. Hammarström H., Her O.-S., Allassonnière-Tang M. Term spotting: A quick-and-dirty method for extracting typological features of language from grammatical descriptions // Selected Contributions from the Eighth Swedish Language Technology Conference (SLTC-2020). 2020. P. 27–34.
  17. Kornilov A. Multilingual Automatic Extraction of Linguistic Data from Grammars // Proceedings of the Second Workshop on NLP Applications to Field Linguistics. Dubrovnik, Croatia: Association for Computational Linguistics, 2023. P. 86–94.
  18. Kornilov A., Shavrina T. From MTEB to MTOB: Retrieval-Augmented Classification for Descriptive Grammars. arXiv preprint arXiv:2411.15577, 2024.
  19. Miestamo M., Bakker D., Arppe A. Sampling for variety // Linguistic Typology. 2016. Vol. 20. № 2. P. 233–296.
  20. Cheveleva A. Neutralization of gender values in the plural. Bachelor’s thesis. Moscow: HSE University, 2023.
  21. Wei J., Wang X., Schuurmans D., Bosma M., Xia F., Chi E., Le Q.V., Zhou D. et al. Chain-of-thought prompting elicits reasoning in large language models // Advances in Neural Information Processing Systems (NeurIPS). 2022. Vol. 35. P. 24824–24837.
  22. Hammarström H., Forkel R., Haspelmath M., Bank S. (eds.). Glottolog 5.0 [Data set]. Zenodo, 2024. doi: 10.5281/zenodo.8635585.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Шаврина Т.О., Корнилов А.А., 2026

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).