Автоматическая лексическая адаптация русскоязычных текстов
- Авторы: Ниценко А.В.1, Шелепов В.Ю.1, Большакова С.А.1
-
Учреждения:
- Институт проблем искусственного интеллекта
- Выпуск: № 1 (2025)
- Страницы: 82-94
- Раздел: Анализ текстовой и графической информации
- URL: https://ogarev-online.ru/2071-8594/article/view/293499
- DOI: https://doi.org/10.14357/20718594250107
- EDN: https://elibrary.ru/NJYPOD
- ID: 293499
Цитировать
Полный текст
Аннотация
В статье описан способ лексического упрощения русскоязычных текстов, основанный на обратном использовании словаря синонимов, а именно, на замене синонимов соответствующими доминантами. Поскольку это нельзя делать абсолютно формально, нами были подготовлены специальные базы синонимов, которые снабжены разметкой, необходимой для получения в замененном тексте правильного синтаксиса.
Об авторах
Артём Владимирович Ниценко
Институт проблем искусственного интеллекта
Автор, ответственный за переписку.
Email: nav_box@mail.ru
кандидат технических наук, заведующий отделом распознавания речевых образов
Россия, ДонецкВладислав Юрьевич Шелепов
Институт проблем искусственного интеллекта
Email: vladislav.shelepov2012@yandex.ru
доктор физико-математических наук, профессор, главный научный сотрудник отдела распознавания речевых образов
Россия, ДонецкСветлана Анатольевна Большакова
Институт проблем искусственного интеллекта
Email: svetlako@yandex.com
младший научный сотрудник отдела распознавания речевых образов
Россия, ДонецкСписок литературы
- Coster W., Kauchak D. Simple English Wikipedia: a new text simplification task // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. Р. 665–669.
- Woodsend K., Lapata M. Wikisimple: Automatic simplification of Wikipedia articles // Proceedings of the National Conference on Artificial Intelligence. 2011. P. 927-932.
- De Belder J., Deschacht K., Moens M.F. Lexical simplification // Electronic resource. URL: https://www.researchgate.net/ profile/Marie-Francine-Moens/publication/265205638_Lexical_Simplification/links/54872b890cf289302e2ed53b/Lexical-Simplification.pdf (accessed 01.07.2024).
- De Belder J., Moens M.F. Text simplification for children // Proceedings of the SIGIR workshop on accessible search systems. ACM. 2010. P. 19-26.
- Хафизова Э. И. Адаптация сложности текстов и текстовых заданий // Молодой ученый. 2021. № 12 (354). С. 266-268.
- Kim Y.S., Hullman J., Adar E. DeScipher: A Text Simplification Tool for Science Journalism // Electronic resource. URL: https://cond.org/cjdescipher.pdf (accessed 01.07.2024).
- Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L. et al. Attention is all you need // 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA. P. 5998–6008.
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pretraining of deep bidirectional transformers for language understanding // Proceedings of NAACL-HLT 2019. Minneapolis, Minnesota, Association for Computational Linguistics P. 4171–4186.
- Monteiro J., Aguiar M., Araújo S. Using a Pre-trained SimpleT5 Model for Text Simplification in a Limited Corpus // CLEF 2022 – Conference and Labs of the Evaluation Forum, September 5–8, 2022, Bologna, Italy. CEUR Workshop Proceedings. CEUR-WS.org. 2022. P. 2826–2831.
- Raffel C., Shazeer N., Roberts A., Lee K., Narang S. et al. Exploring the limits of transfer learning with a unified textto-text transformer // Journal of machine learning research. 2019. V. 21. P. 5485–5551.
- Fenogenova, A. Text Simplification with Autoregressive Models // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 227-234.
- Liu Y., Gu J., Goyal N., Li X., Edunov S. et al. Multilingual denoising pre-training for neural machine translation // Transactions of the Association for Computational Linguistics. 2020. V. 8. P. 726–742.
- Lewis M., Liu Y., Goyal N. et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension // Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistics. 2020. P. 7871–7880.
- Sakhovskiy A., Tutubalina E., Malykh V. et al. RuSimpleSentEval-2021 Shared Task: Evaluating Sentence Simplification for Russian // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 607-617.
- Shatilov A. A., Rey A. I. Sentence simplification with ruGPT3 // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 618-625.
- Komleva E. P. Anastasyev D. G. Sentence Simplification for Russian using Transfer Learning // Annual International Conference on Computational Linguistics and Intellectual Technologies, Dialogue. 2021, Труды конференции. Выпуск 20. М: Российский государственный гуманитарный университет. 2021. С. 1075-1080.
- Васильев Д.Д., Пятаева А.В. Использование языковых моделей T5 для задачи упрощения текста // Программные продукты и системы. 2023. Т. 36. № 2. С. 228–236. doi: 10.15827/0236-235X.142.228-236.
- Burstein J. The automated text adaptation tool // Proceedings of Human Language Technologies. The Annual Conference of the North American Chapter of the Association for Computational Linguistics. Demonstrations. Association for Computational Linguistics. 2007. P. 3-4.
- Александрова З.Е. Словарь синонимов русского языка. Практический справочник. Около 11 000 синонимических рядов. 11 изд., перераб. и доп. М.: Русский язык, 2001. 568 с.
- Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Издательский центр «Азбуковник». 2009. 1090 с.
- Национальный корпус русского языка. [Электронный ресурс] // URL: http://ruscorpora.ru/ (дата обращения: 01.07.2024).
- EASSE: Easier Automatic Sentence Simplification Evaluation / Fernando Alva-Manchego, Louis Martin, Carolina Scarton, Lucia Specia // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). System Demonstrations. Hong Kong, China: Association for Computational Linguistics, 2019. P. 49–54. Access mode: https://www.aclweb.org/anthology/D19-3009.
- Shen L. LexicalRichness: A small module to compute textual lexical richness. 2022. URL: https://github.com/LSYS/lexicalrichness doi: 10.5281/zenodo.6607007.
Дополнительные файлы
