Извлечение номенклатурных наименований из англо- и русскоязычных научно-технических текстов
- Авторы: Бутенко Ю.И.1
-
Учреждения:
- Московский государственный технический университет им. Н. Э. Баумана
- Выпуск: № 3 (2024)
- Страницы: 113-121
- Раздел: Анализ текстовой и графической информации
- URL: https://ogarev-online.ru/2071-8594/article/view/265363
- DOI: https://doi.org/10.14357/20718594240309
- EDN: https://elibrary.ru/HCAOWJ
- ID: 265363
Цитировать
Полный текст
Аннотация
В статье предложен метод извлечения англо- и русскоязычных номенклатурных наименований из научно-технических текстов на основе структурных моделей специальной лексики. Проанализированы их структурные и семантические особенности, а на основе проведенного анализа созданы модели англо- и русскоязычных номенклатурных наименований. Предложен метод автоматического извлечения номенклатурных наименований из англо- и русскоязычных научно-технических текстов. Результаты исследований могут быть использованы при разработке различных систем обработки научно-технических текстов, разметке специальных корпусов, сборе языкового материала при создании терминологических словарей и баз данных за счет учета большего числа моделей специальной лексики и применения методов обработки научно-технических текстов на русском и английском языках.
Ключевые слова
Об авторах
Юлия Ивановна Бутенко
Московский государственный технический университет им. Н. Э. Баумана
Автор, ответственный за переписку.
Email: iubutenko@bmstu.ru
кандидат технических наук, доцент кафедры теоретической информатики и компьютерных технологий
Россия, МоскваСписок литературы
- Гринев-Гриневич В.В., Сорокина Э.А., Молчанова М.А. Терминоведение. Изд. 3-е, испр. и доп. М.: ЛЕНАНД, 2023.
- Lang C. et al. Transforming Term Extraction: Transformer-Based Approaches to Multilingual Term Extraction Across Domains. Findings of the Association for Computational Linguistics // ACL-IJCNLP-2021. 2021. P. 3607-3620.
- Citron D., Ginsparg P. Patterns of text reuse in a scientific corpus // PNAS. 2015. P. 25-30.
- Simon N.I., Kešelj V. Automatic term extraction in technical domain using part-of-speech and common-word features // Proceedings of the ACM Symposium on Document Engineering. 2018. P. 1-4.
- Наместников А.М., Филлипов А.А., Шигабутдинов И.М. Подход к извлечению многословных терминов из текстов на естественном языке с применением синтаксических шаблонов // Автоматизация процессов управления. 2021. № 3 (65). С. 87-95.
- Клышинский Э.С., Кочеткова Н.А. Метод выделения коллокаций с использованием степенного показателя в распределении Ципфа // Новые информационные технологии в автоматизированных системах. 2018. № 21. С. 220-225.
- Nugumanova A., Akhmed-Zaki D., Mansurova M., Baiburin Y., Maulit A. NMF-based approach to automatic term extraction // Expert Systems with Applications. 2022. No 199. P.117179.
- Кононенко И.С., Ахмадеева И.Р., Сидорова Е.А., Шестаков В.К. Проблемы извлечения терминологического ядра предметной области из электронных энциклопедических словарей // Системная информатика. 2018. № 13. С. 49-75.
- Большакова Е.И., Лукашевич Н.В., Нокель М.А. Извлечение однословных терминов из текстовых коллекций на основе методов машинного обучения // Информационные технологии. 2013. № 7. С. 31-36.
- Abuzayed A., Al-Khalifa H. BERT for Arabic Topic Modeling: An experimental Study on BERTopic Technique // Procedia Computer Science. 2021. No 189. P. 191–194.
- Дубровский Д. И., Сергеев С.Ф. Методологические проблемы оценки генеративного искусственного интеллекта // Искусственный интеллект. Теория и практика. 2023. № 3 (3). С. 2-10.
- Кузнецов И.О. Автоматическое извлечение двусловных терминов по тематике «Нанотехнологии в медицине» на основе корпусных данных // Научно-техническая информация. Серия 2. Информационные процессы и системы. 2013. № 5. С. 25-33.
- Бручес Е.П., Батура Т.В. Метод автоматического извлечения терминов из научных статей на основе слабо контролируемого обучения // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2021. Т.19. № 2. С.5-16.
- Lossio-Ventura J.A., Jonquet C., Roche, M. et al. Biomedical term extraction: overview and a new methodology // Information Retrieval Journal. 2016. No 19. P. 59–99.
- Кочеткова Н.А., Ермаков П.Д. Метод извлечения однословных терминов на основе статистического распределения слов внутри контекста // Научно-техническая информация. Серия 2. Информационные процессы и системы. 2017. № 1. С. 23-28.
- Biziukova N.Y., Tarasova O.A., Rudik A.V. et al. Automatic Recognition of Chemical Entity Mentions in Texts of Scientific Publications // Automatic Documentation and Mathematical Linguistics. 2020. No 54. P. 306–315.
- Terryn A. R., Host V., Lefever E. In no uncertain terms: a dataset for monolingual and multilingual automatic term extraction from comparable corpora // Language Resources and Evaluation. 2020. No 54.2. P. 385-418.
- Цисун С., Шелов С.Д. О классификации номенов и номенклатурных наименований (на материале наименований товаров) // Научно-техническая информация: Серия 2. Информационные процессы и системы. 2015. № 6. С. 37-44.
- Лейчик В.М. Терминоведение: Предмет, методы, структура. Изд. 4-е. М.: Книжный дом ≪ЛИБРОКОМ≫, 2009.
- Шуфан С., Шелов Д.С. Номенклатурные наименования как элемент китайской научной лексики (на материале языкознания и литературоведения) // Вестник СанктПетербургского университета. Востоковедение и африканистика. 2014. № 3. С. 5-16.
- Бутенко Ю.И. Строганов Ю.В., Сапожков А.М. Метод извлечения русскоязычных многокомпонентных терминов в корпусе научно-технических текстов // Прикладная информатика. 2021. № 6. С. 21-27.
- Бутенко Ю.И. Строганов Ю. В. Сапожков А. М. Система извлечения многокомпонентных терминов и их переводных эквивалентов из параллельных научно-технических текстов // Научно-техническая информация: Серия 2. Информационные процессы и системы. 2022. № 9. С. 12-21.
Дополнительные файлы
