The Chekhov Digital project: tasks and problems of implementing semantic markup of texts (on the example of A. P. Chekhov's story "The Death of an Official")

Cover Page

Cite item

Full Text

Abstract

The article considers a model of preparation of machine-readable (semantic) markup of texts for the Chekhov Digital project on the example of philological interpretation of individual significant elements of A. P. Chekhov's story "Death of an Official" and presentation of this information explicitly based on the standards of digital publication Text Encoding Initiative (TEI/XML). Based on the work of literary researchers, significant entities have been identified for marking up the corpus of the writer's texts, but the question of their representation in the text remains quite complex. A philological examination of such aspects as "properties, states and events; character features" in an excerpt from the story of A.P. Chekhov was carried out from the point of view of the TEI markup capabilities for preserving philological knowledge in a machine-readable format. One of the objectives of the Chekhov Digital project is to go beyond a simple digitized text and provide useful digital tools for the researcher. The elements of machine-readable markup are presented, which make it possible to mark up significant entities in Chekhov's texts for organizing semantic search through the corpus of the writer's texts, the problems and research tasks arising in the process of implementing such interdisciplinary projects due to the need to combine the efforts of specialists from different fields of knowledge are considered. The project implements the principle of Open research data, the most important task of which is to create scientific communities around data. The work on the project led to the development of scientific cooperation between researchers of the Higher School of Economics, the UNC RAS and the SFU.

References

  1. Чехов А. П. Полное собрание сочинений и писем: В 30 т. / АН СССР. Ин-т мировой лит. им. А. М. Горького. М.: Наука, 1974-1983.
  2. TEI Consortium, eds. TEI P5: Guidelines for Electronic Text Encoding and Interchange. Version 4.6.0. Last updated on 4th April 2023. TEI Consortium. URL: https://tei-c.org/guidelines/p5/
  3. Северина Е. М., Бонч-Осмоловская А. А., Кудин А. М. Цифровые филологические практики: проект "Chekhov Digital". Актуальные проблемы филологии и педагогической лингвистики. 2022. № 2. С. 153-165. https://doi.org/10.29025/2079-6021-2022-2-153-165.
  4. Северина Е.М., Ларионова М.Ч. Новые филологические практики: семантическое издание текстов А. П. Чехова. Филология: научные исследования. 2020, № 10, с. 13-21. doi: 10.7256/2454-0749.2020.10.33970.
  5. Чехов А. П. Смерть чиновника // Чехов А. П. Полное собрание сочинений и писем: В 30 т. Сочинения: В 18 т. Т. 2. М.: Наука, 1975. С. 164–166.
  6. Даль В. И. Толковый словарь живого великорусского языка: В 4 т. Т. 4. М.: Русский язык, 1989.
  7. Короленко В. Г. Антон Павлович Чехов // Чехов в воспоминаниях современников. М.: Гослитиздат, 1960. С. 135–148.
  8. Бердников Г. П. А. П. Чехов. Идейные и творческие искания. М.: Художественная литература, 1984.
  9. M. Straka, J. Straková, J. Hajič (2019): UDPipe at SIGMORPHON 2019: Contextualized Embeddings, Regularization with Morphological Categories, Corpora Merging. In: Proceedings of the 16th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology, pp. 95-103, Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-950737-36-9.
  10. Дяченко П. В., Л. Л. Иомдин, А. В. Лазурский, Л. Г. Митюшин, О. Ю. Подлесская, В. Г. Сизов, Т. И. Фролова, Л. Л. Цинман. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) // Труды Института русского языка им. В.В. Виноградова. М., 2015. № 6. С. 272-300.
  11. M.-C. de Marneffe, T. Dozat, N. Silveira, K. Haverinen, F. Ginter, J. Nivre, & C. D. Manning. 2014. Universal Stanford dependencies: A cross-linguistic typology. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), pages 4585–4592, Reykjavik, Iceland. European Language Resources Association (ELRA). URL: https://nlp.stanford.edu/pubs/USD_LREC14_paper_camera_ready.pdf
  12. Потебня А. А. Из записок по русской грамматике: В 4 т. Т. 3. М.: Просвещение, 1968.
  13. Болотова Е. А. Антропонимическая языковая мозаика «говорящих» имен и фамилий // The Scientific Heritage. 2019. № 4. С. 35–39.
  14. Ларионова М.Ч., Шепелева О.А. Отчего умер Червяков? Традиционная культура в рассказе А.П. Чехова «Смерть чиновника» // Известия ЮФУ. Филологические науки. 2019. № 1. С. 36–41. https://doi.org/10.23683/1995-0640-2019-1-36-41.
  15. Катаев В.Б. «Степь»: драматургия прозы // Таганрогский вестник. Материалы международной научно-практической конференции «“Степь” А. П. Чехова: 120 лет». Вып. 3. Таганрог: ООО «Изд-во Лукоморье», 2008. С. 3–9.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).