Идентификация средств категории отрицания в сбалансированном лингвистическом корпусе

Обложка

Цитировать

Полный текст

Аннотация

Цель исследования – разработать базовую технологию идентификации средств категории отрицания в рамках работы программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». Применяются методы анализа, тестирования, моделирования, профессионально ориентированного программирования и эксперимента. В качестве лингвистического материала выступает корпус актуальных новостных текстов CNN объемом 1 024 583 токена. В результате исследования уточнены возможности текущей версии программного комплекса, а также написано расширение, позволяющее находить лексические единицы, находящиеся в прямом подчинении от заданной леммы.

Об авторах

Алексей Иванович Горожанов

Московский государственный лингвистический университет

Автор, ответственный за переписку.
Email: a.gorozhanov@linguanet.ru
ORCID iD: 0000-0003-2280-1282
SPIN-код: 1753-4920
Scopus Author ID: 57221193252
ResearcherId: U-2569-2018

доктор филологических наук, доцент, профессор кафедры грамматики и истории немецкого языка факультета немецкого языка

Россия

Список литературы

  1. Гращенков П. В., Студеникина К. А., Паско Л. И. Ограничение сочинительного острова в лингвистической компетенции больших языковых моделей // Вестник Санкт-Петербургского университета. Язык и литература. 2024. Т. 21. № 3. С. 668–688. doi: 10.21638/spbu09.2024.309. EDN HCAZUH.
  2. Лагутина К. В., Бойчук Е. И., Лагутина Н. С. Автоматическая классификация русскоязычных интернет-текстов по жанрам // Искусственный интеллект и принятие решений. 2023. № 4. С. 103–114. doi: 10.14357/20718594230410. EDN BAKBAF.
  3. Солнышкина М. И., Макнамара Д. С., Замалетдинов Р. Р. Обработка естественного языка и изучение сложности дискурса // Russian Journal of Linguistics. 2022. Т. 26. № 2. С. 317–341. doi: 10.22363/2687-0088-30171. EDN EQQVTI.
  4. Гагарин С. Н. Базовые методики анализа языковых картин политики с помощью языка программирования Python и библиотеки NLTK (на материалах корпусов британского парламентского дискурса) // Филологические науки в МГИМО. 2024. Т. 10. № 2. С. 125–140. doi: 10.24833/2410-2423-2024-2-39-125-140. EDN GDGMAO.
  5. Сафина З. М. Переводческий анализ художественного текста на языке Python // Глобальный научный потенциал. 2024. Т. 1. № 11(164). С. 177-180. EDN RTJTGQ.
  6. Красикова Е. А. Роль корпусного менеджера в анализе употребления имен собственных в текстах электронных СМИ (на примере англоязычного корпуса CNN) // Филологические науки в XXI веке: актуальность, многополярность, перспективы развития : Сборник научных трудов. Краснодар: КубГУ, 2024. С. 45–49. EDN JPRHAE.
  7. Степанова Д. В. Презентация существительных семантического ряда «традиционные энергоносители» в современных СМИ ФРГ (на материале текстов газеты «Франкфуртер Альгемайне Цайтунг») // Филологические науки в XXI веке: актуальность, многополярность, перспективы развития : Сборник научных трудов. Краснодар: КубГУ, 2024. С. 136–140. EDN PUDELJ.
  8. Горожанов А. И. Архитектура сбалансированного лингвистического корпуса, полученного автоматическим путем (опыт Московского государственного лингвистического университета) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2024а. № 11 (892). С. 24–30. EDN BCSCXQ.
  9. Глушак В. М. Отрицание немецких полярных слов и выражений в автоматизированном анализе тональности текста // Филологические науки. Вопросы теории и практики. 2023. Т. 16. № 10. С. 3287–3292. doi: 10.30853/phil20230510. EDN CWDXEU.
  10. Горожанов А. И. Метод программного анализа контекста лексической единицы // Актуальные проблемы филологии и педагогической лингвистики. 2024б. № 3. С. 178–190. doi: 10.29025/2079-6021-2024-3-178-190. EDN QNFATA.
  11. Горожанов А. И. Расширение стандартного сбалансированного лингвистического корпуса, построенного по правилам spaCy, коннотативными характеристиками // Филологические науки. Вопросы теории и практики. 2023. Т. 16. № 11. С. 3888–3893. doi: 10.30853/phil20230594. EDN FVUIUL.
  12. Сытько А. В. Отрицательные деонтические высказывания: семантика и прагматика (на материале немецкого и русского языков) // Вестник Минского государственного лингвистического университета. Серия 1: Филология. 2023. № 2 (123). С. 40–49. EDN MZPNGY.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».