Проект Chekhov Digital: задачи и проблемы реализации семантической разметки текстов (на примере рассказа А. П. Чехова «Смерть чиновника»)

Обложка

Цитировать

Полный текст

Аннотация

В статье рассматривается модель подготовки машиночитаемой (семантической) разметки текстов для проекта Chekhov Digital на примере филологической интерпретации отдельных значимых элементов рассказа А. П. Чехова «Смерть чиновника» и представления этих сведений в явном виде с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI/XML). Выявлены значимые сущности для разметки корпуса текстов писателя, однако вопрос их репрезентации в тексте остается достаточно сложным. Проведена филологическая экспертиза таких аспектов, как «свойства, состояния и события; особенности характера» в отрывке из рассказа А.П. Чехова с точки зрения возможностей разметки TEI по сохранению филологических знаний в машиночитаемом формате. Одна из задач проекта Chekhov Digital – выйти за рамки простого оцифрованного текста и предусмотреть полезные для исследователя цифровые инструменты. Представлены элементы машиночитаемой разметки, позволяющие разметить значимые сущности в чеховских текстах для организации семантического поиска по корпусу текстов писателя, рассмотрены проблемы и исследовательские задачи, возникающие в процессе реализации такого рода междисциплинарных проектов в связи с необходимостью объединения усилий специалистов из разных областей знания. В рамках проекта реализуется принцип открытых исследовательских данных (Open Data), важнейшей задачей которого является создание научных сообществ вокруг данных. Работа над проектом привела к развитию научного сотрудничества между исследователями НИУ ВШЭ, ЮНЦ РАН и ЮФУ.

Об авторах

Елена Михайловна Северина

Южный федеральный университет

Email: emkovalenko@sfedu.ru
ORCID iD: 0000-0001-6518-2771
профессор; кафедра лингвистики и профессиональной коммуникации;

Марина Ченгаровна Ларионова

Отдел гуманитарных исследований ЮНЦ РАН

Email: chengarovna@yandex.ru
ORCID iD: 0000-0002-2955-2621
Заведующая отделом;

Список литературы

  1. Чехов А. П. Полное собрание сочинений и писем: В 30 т. / АН СССР. Ин-т мировой лит. им. А. М. Горького. М.: Наука, 1974-1983.
  2. TEI Consortium, eds. TEI P5: Guidelines for Electronic Text Encoding and Interchange. Version 4.6.0. Last updated on 4th April 2023. TEI Consortium. URL: https://tei-c.org/guidelines/p5/
  3. Северина Е. М., Бонч-Осмоловская А. А., Кудин А. М. Цифровые филологические практики: проект "Chekhov Digital". Актуальные проблемы филологии и педагогической лингвистики. 2022. № 2. С. 153-165. https://doi.org/10.29025/2079-6021-2022-2-153-165.
  4. Северина Е.М., Ларионова М.Ч. Новые филологические практики: семантическое издание текстов А. П. Чехова. Филология: научные исследования. 2020, № 10, с. 13-21. doi: 10.7256/2454-0749.2020.10.33970.
  5. Чехов А. П. Смерть чиновника // Чехов А. П. Полное собрание сочинений и писем: В 30 т. Сочинения: В 18 т. Т. 2. М.: Наука, 1975. С. 164–166.
  6. Даль В. И. Толковый словарь живого великорусского языка: В 4 т. Т. 4. М.: Русский язык, 1989.
  7. Короленко В. Г. Антон Павлович Чехов // Чехов в воспоминаниях современников. М.: Гослитиздат, 1960. С. 135–148.
  8. Бердников Г. П. А. П. Чехов. Идейные и творческие искания. М.: Художественная литература, 1984.
  9. M. Straka, J. Straková, J. Hajič (2019): UDPipe at SIGMORPHON 2019: Contextualized Embeddings, Regularization with Morphological Categories, Corpora Merging. In: Proceedings of the 16th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology, pp. 95-103, Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-36-9.
  10. Дяченко П. В., Л. Л. Иомдин, А. В. Лазурский, Л. Г. Митюшин, О. Ю. Подлесская, В. Г. Сизов, Т. И. Фролова, Л. Л. Цинман. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) // Труды Института русского языка им. В.В. Виноградова. М., 2015. № 6. С. 272-300.
  11. M.-C. de Marneffe, T. Dozat, N. Silveira, K. Haverinen, F. Ginter, J. Nivre, & C. D. Manning. 2014. Universal Stanford dependencies: A cross-linguistic typology. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), pages 4585–4592, Reykjavik, Iceland. European Language Resources Association (ELRA). URL: https://nlp.stanford.edu/pubs/USD_LREC14_paper_camera_ready.pdf
  12. Потебня А. А. Из записок по русской грамматике: В 4 т. Т. 3. М.: Просвещение, 1968.
  13. Болотова Е. А. Антропонимическая языковая мозаика «говорящих» имен и фамилий // The Scientific Heritage. 2019. № 4. С. 35–39.
  14. Ларионова М.Ч., Шепелева О.А. Отчего умер Червяков? Традиционная культура в рассказе А.П. Чехова «Смерть чиновника» // Известия ЮФУ. Филологические науки. 2019. № 1. С. 36–41. https://doi.org/10.23683/1995-0640-2019-1-36-41.
  15. Катаев В.Б. «Степь»: драматургия прозы // Таганрогский вестник. Материалы международной научно-практической конференции «“Степь” А. П. Чехова: 120 лет». Вып. 3. Таганрог: ООО «Изд-во Лукоморье», 2008. С. 3–9.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).