Определение авторства «Записок декабриста И.И. Горбачевского» методами машинного обучения

Обложка

Цитировать

Полный текст

Аннотация

В представленной работе объектом исследования являются «Записки декабриста И.И. Горбачевского» – яркий образец декабристской мемуаристики, несущий отпечаток исторического самосознания участников движения. Данный источник предлагает ценные сведения о перипетиях взаимоотношений между участниками таких декабристских организаций, как Общество соединенных славян и Южное общество, содержит взгляд изнутри на ход и причины поражения восстания Черниговского полка, предоставляет фактологический материал о судьбе заговорщиков после суда над ними и отправки в Сибирь. Вместе с тем, начавшись еще в советской историографии, по сей день остается до конца не завершенным спор об авторстве этих "Записок": фигура декабриста Горбачевского в качестве автора рядом исследователей считается чисто номинальной. Вполне очевидно при этом, что личность автора определяет специфику изложенных в "Записках" суждений и привносит в изложение неизбежный субъективный налет, а потому должна приниматься во внимание при работе с источником. Предметом исследования в представленной работе, таким образом, является не разрешенный до сих пор вопрос об авторстве «Записок». Авторами предложено решение задачи определения авторства «Записок декабриста И.И. Горбачевского» при помощи методов машинного обучения. В качестве возможных авторов рассмотрен сам И.И. Горбачевский, а также декабрист П.И. Борисов. Новизна исследования заключается в том, что для определения авторства «Записок» были применены методы машинного обучения. Авторы обучили четыре типа моделей для предсказания авторства каждого из предложений «Записок». В результате большинство предложений «Записок» были оценены, как написанные Горбачевским. Наибольший процент предложений, 69.2 %, был отнесён к Горбачевскому моделью Count Vectorizer + SVC. Точность всех моделей в среднем превышала 80 %, а у основанных на кодировании при помощи BERT в среднем была близка к 90 %. Основным выводом работы, таким образом, можно считать, что «Записки» более вероятно были написаны И.И. Горбачевским, чем П.И. Борисовым. Примененные в рамках представленного исследования методы дают еще один аргумент в пользу этой версии. Код и датасет доступны по ссылке: https://github.com/WLatonov/Gorbachevskiy_notes .

Об авторах

Василий Васильевич Латонов

ПАО «Сбербанк»

Email: WLatonov@gmail.com
ORCID iD: 0000-0002-7810-8033
Руководитель направления по исследованию данных;

Анастасия Вячеславовна Латонова

Email: iskrenne_vasha_aa@mail.ru
независимый исследователь

Список литературы

  1. Нечкина М.В. Движение декабристов. [В 2 т.] М.: Изд-во Акад. наук СССР, 1955. Т. 2.
  2. Шатрова Г.П. Декабристы и Сибирь. Томск: Издательство Томского университета, 1962.
  3. Шатрова Г.П. Декабрист И.И. Горбачевский. Красноярск: КГПИ, 1973.
  4. Матханова Н.П. Сибирская мемуаристика XIX века. Новосибирск: Издательство СО РАН, 2010.
  5. Сыроечковский Б.Е., Сокольский Л.А., Порох И.В. Декабрист Горбачевский и его «Записки» // И.И. Горбачевский. Записки; Письма / Изд. подгот. Б.Е. Сыроечковский, Л.А. Сокольский, И.В. Порох. М: Изд-во АН СССР, 1963. С. 257-305.
  6. Мироненко М.П. Мемуарное наследие декабристов в журнале «Русский архив» // Археографический ежегодник за 1975 год. М., 1976. С. 112-114.
  7. Злобин Е.В. К вопросу об авторстве "Записок" декабриста И.И. Горбачевского // История СССР, 1990. № 2. С. 140-155.
  8. Горбачевский Иван Иванович // Большая российская энциклопедия: [в 35 т.] / гл. ред. Ю.С. Осипов. М.: Большая российская энциклопедия, 2004–2017. Т. 7. М., 2007. С. 423-424.
  9. Туманик Е.Н. Роль мемуарного наследия декабристов в научной концепции Г.П. Шатровой // Гуманитарные науки в Сибири, 2020. № 27(4). С. 50-57.
  10. Мартыненко Г. Я., Гребенников А. О. Основы стилеметрии: учеб.-метод. пособие. СПб.: Изд-во С.-Петерб. ун-та, 2018.
  11. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд // Изв. отд. русского языка и словесности Ими. акад. наук. 1915. № 20(4). С. 93-134.
  12. Марков А.А. Об одном применении статистического метода // Изв. Ими. акад. наук. Сер. 6. 1916. № 4. С. 239-242.
  13. Марков А.А. Пример статистического исследования над текстом "Евгения Онегина", иллюстрирующий связь испытаний в цепь // Изв. Имп. акад. наук. Сер. 6. 1913. № 3. С. 153-162.
  14. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вести. МГУ. Сер. 9. Филология. 2000. № 2. С. 115-126.
  15. О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелёв, Определение авторства текста с использованием буквенной и грамматической информации // Пробл. передачи информ. 2001. № 37(2), 96-109.
  16. Stamatatos P. D. et al. On the robustness of authorship attribution based on character n-gram features // Journal of Law and Policy. 2013. № 21(2). P. 7.
  17. Burrows S., Tahaghoghi S. M. M. Source code authorship attribution using n-grams // Proceedings of the twelth Australasian document computing symposium, Melbourne, Australia, RMIT University, 2007. P. 32-39.
  18. Sapkota U. et al. Not all character n-grams are created equal: A study in authorship attribution // Proceedings of the 2015 conference of the North American chapter of the association for computational linguistics: Human language technologies. 2015. P. 93-102.
  19. Peng F. et al. Language independent authorship attribution with character level n-grams // 10th Conference of the European Chapter of the Association for Computational Linguistics. 2003.
  20. Burrows J. ‘Delta’: a measure of stylistic difference and a guide to likely authorship // Literary and linguistic computing. Oxford University Press. 2002. № 17(3). P. 267-287.
  21. Hoover D. Testing Burrows’ Delta. // Literary and Linguistic Computing. 2004. № 19(4). P. 453-475.
  22. Evert. S., Proisl T., Jannidis F., Reger. I., Pielström S., Schöch C., Vitt T. Understanding and explaining Delta measures for authorship attribution. // Digital Scholarship in the Humanities. 2017. № 32(2). P. 4-16.
  23. Jannidis F. et al. Improving Burrows’ Delta. An empirical evaluation of text distance measures // Digital Humanities Conference. 2015. № 11. P. 10.
  24. Ковалев Б.В. Рождение третьего автора: стилеметрический анализ рассказов Онорио Бустоса Домека // Литература двух Америк. 2024. № 16. С. 120-146.
  25. Бородкин Л.И., Милов Л.В., Морозова Л.Е. К вопросу о формальном анализе авторских особенностей стиля в произведениях Древней Руси // Математические методы в историко-экономических и историко-культурных исследованиях / Отв. ред. И.Д. Ковальченко. М.: Наука. 1977. С. 298-326.
  26. Borodkin L., Milov L. Some Aspects of the Application of Quantitative Methods and Computers in the Analysis of Narrative Texts // Soviet Quantitative History / Ed. by D.K. Rowny. Sage Publications. Beverly Hills/London/New Delhi, 1984.
  27. Милов Л.В., Бородкин Л.И., Иванова Т.В. и др. От Нестора до Фонвизина: Новые методы определения авторства / под ред. Л. В. Милова. М., Прогресс, 1994.
  28. Jockers M. L., Witten D. M. A comparative study of machine learning methods for authorship attribution // Literary and Linguistic Computing. 2010. № 25(2). С. 215-223.
  29. Fix E., Hodges J. L. Discriminatory analysis, nonparametric discrimination // International Statistical Review / Revue Internationale de Statistique. 1989. No. 57(3), P. 233-238
  30. Vapnik V. Support-vector networks // Machine learning. 1995. № 20. P. 273-297.
  31. Boumber D., Zhang Y., Mukherjee A. Experiments with convolutional neural networks for multi-label authorship attribution // Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018.
  32. Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain // Psychological review. 1958. № 65(6). P. 386.
  33. Fedotova A. et al. Authorship attribution of social media and literary Russian-language texts using machine learning methods and feature selection // Future Internet. 2021. № 14(1). P. 4.
  34. Hochreiter S. Long Short-term Memory // Neural Computation MIT-Press, 1997.
  35. Kenton J. D. M. W. C., Toutanova L. K. Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of naacL-HLT. 2019. № 1. P. 2.
  36. Hosmer D. W. Lemeshow S. Applied Logistic Regression // John Wiley & Sons, 2013.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).