Автоматическое извлечение информации из эго-документа: сравнительный анализ эффективности больших языковых моделей на примере дневника К.А. Березкина

Обложка

Цитировать

Полный текст

Аннотация

Предметом исследования является сравнительный анализ производительности, аналитических стратегий и ограничений четырех больших языковых моделей – Gemini-2.5-Pro, o3, Grok3 и Deepseek-v3 – в задаче извлечения структурированной информации из исторического эго-документа. Анализ нацелен на определение способности моделей работать со сложным нарративом, характеризующимся высокой степенью субъективности, обилием косвенных свидетельств, многослойностью смыслов и эмоциональной окрашенностью. Ключевые ограничения моделей – сверхинтерпретация, пропуск косвенных свидетельств и компромисс между полнотой и точностью – рассматриваются как часть их аналитических стратегий. Материалом послужил дневник вологодского гимназиста К.А. Березкина за 1849 год. Работа решает комплексную задачу по разработке и тестированию подхода, позволяющего трансформировать неструктурированный текст источника в датасет, пригодный для решения конкретной историографической задачи – анализа восприятия европейских революций 1848–1849 гг. в российской провинции. Методология основана на автоматическом извлечении структурированной информации при помощи больших языковых моделей. Разработан комплексный инструментарий, включающий доменно-специфическую онтологию, промпты и детальную JSON-схему для фиксации данных. Производительность моделей оценивалась на основе количественных (полнота, точность, F1-мера) и качественных показателей (гранулярность, точность следования онтологии, понимание исторического контекста, типичные ошибки). Научная новизна заключается в первой в отечественной историографии системной апробации и сравнительном анализе производительности ведущих языковых моделей при работе с историческим эго-документом. Установлено, что модели реализуют различные стратегии извлечения данных: от исчерпывающего, но «шумного» охвата (Gemini-2.5-Pro) до высокоточного, но избирательного (Deepseek-v3), что напрямую определяет пригодность получаемого датасета для разных исследовательских сценариев: от разведочного анализа до создания выверенных баз данных. Ключевой вывод исследования состоит в том, что автоматизированное извлечение является не технической операцией, а формой цифровой герменевтики. Соответственно, итоговый датасет – это не объективные данные (data), пассивно «обнаруженные» в источнике, а capta – набор сведений, отобранных под конкретную задачу. Исследование показывает, что применение искусственного интеллекта повышает требования к критической экспертизе историка, смещая его роль от поиска информации к верификации и интерпретации машинных результатов.

Об авторах

Алексей Валерьевич Кузнецов

Институт всеобщей истории РАН

Email: kuznetsovaleks@rambler.ru
ORCID iD: 0000-0003-4755-250X
научный сотрудник;

Список литературы

  1. Авербух Р. А. Царская интервенция в борьбе с венгерской революцией 1848–1849. – Москва : Соцэкгиз, 1935. – 232 с.
  2. Березкин К. А. Дневник [Электронный ресурс] / подгот. текста: А. Завина, А. Микерин // Электронный корпус "Прожито". – URL: https://corpus.prozhito.org/person/925 (дата обращения: 08.09.2025).
  3. Володин А. Ю. Исторические исследования в контексте датаизма: методологический аспект // Вестник Пермского университета. История. – 2023. – № 4(63). – С. 135-147. – doi: 10.17072/2219-3111-2023-4-135-147. – EDN: GFSIOJ.
  4. Володин А. Ю. Цифровая герменевтика исторического источника: формализация как толкование // Вестник Пермского университета. История. – 2025. – № 2(69). – С. 87-100. – doi: 10.17072/2219-3111-2025-2-87-100. – EDN: PWRHKI.
  5. Гросул В. Я. Русские участники зарубежных революций первой половины XIX века // Новая и новейшая история. – 2007. – № 4. – С. 21-40. – EDN: IAMEKF.
  6. Кузнецов А. В. Большие языковые модели как инструмент историка // Новые информационные технологии в образовании и науке. – 2024. – № 13. – С. 75-92. – doi: 10.17853/2587-6910-2024-13-75-92. – EDN: QDSUHV.
  7. Кузнецов А.В. За пределами тематического моделирования: анализ исторического текста с помощью больших языковых моделей // Историческая информатика. 2024. № 4. С. 47-65. doi: 10.7256/2585-7797.2024.4.72560 EDN: UOIKPJ URL: https://nbpublish.com/library_read_article.php?id=72560
  8. Линькова Е. В. Внешнеполитический курс Николая І в оценках отечественных консерваторов середины XIX в. // Вестник РУДН. Серия: История России. – 2014. – № 1. – С. 17-23. – EDN: RZVVTB.
  9. Медведева О. Э. Николай I и европейские революции в историографии // Вестник научной ассоциации студентов и аспирантов исторического факультета Пермского государственного гуманитарно-педагогического университета. Серия: Studis historica juvenum. – 2017. – № 1 (13). – С. 132-136.
  10. Международные отношения на Балканах, 1830–1856 гг. / [Г. Л. Арш, И. С. Варта, В. Н. Виноградов и др.] ; отв. ред. В. Н. Виноградов ; АН СССР, Ин-т славяноведения и балканистики. – Москва : Наука, 1990. – 349 с.
  11. Мещерякова А. О. Русские консерваторы и европейские революции 1848–1849 годов // Тетради по консерватизму. – 2017. – № 2. – С. 61-67. – EDN: YMFTLR.
  12. Орлик И. И. Венгерская революция 1848–1849 годов и Россия // Новая и новейшая история. – 2008. – № 2. – С. 21-40. – EDN: IRGMBF.
  13. Орлик О. В. Передовая Россия и революционная Франция (первая половина XIX века). – Москва : Наука, 1973. – 299 с.
  14. Стыкалин А. С. Правда и вымысел о реакции российского общества на венгерскую революцию 1848 г. Венгерская кампания 1849 г. и капитан Гусев // Историческая экспертиза. – 2014. – № 1. – С. 38-54. – EDN: WCHJSL.
  15. Федоров А. В. Отношение передовых людей России к Венгерской революции 1848–1849 годов // Вопросы истории. – 1957. – № 2. – С. 89-96.
  16. Alhamed F., Ive J., Specia L. Using large language models (LLMs) to extract evidence from pre-annotated social media data // Proceedings of the 9th Workshop on Computational Linguistics and Clinical Psychology (CLPsych 2024). – 2024. – P. 232-237.
  17. Bernard G. Détection et suivi d'événements dans des documents de presse historiques : дис. – Université de La Rochelle, 2022.
  18. De Toni F. et al. Entities, Dates, and Languages: Zero-Shot on Historical Texts with T0 // BigScience 2022-International Workshop on Challenges & Perspectives in Creating Large Language Models 2022. – 2022. – P. 75-83.
  19. Drucker J. Humanities Approaches to Graphical Display [Электронный ресурс] // Digital Humanities Quarterly. – 2011. – Vol. 5, № 1. – URL: http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html (дата обращения: 08.09.2025).
  20. Gao T., Langlais P. RaTE: a Reproducible automatic Taxonomy Evaluation by Filling the Gap // Proceedings of the 15th International Conference on Computational Semantics (IWCS 2023). – 2023. – P. 173-182.
  21. Goloviznina V. et al. Do LLMs Understand Why We Write Diaries? A Method for Purpose Extraction and Clustering // arXiv preprint arXiv:2506.00985. – 2025. – URL: https://arxiv.org/abs/2506.00985 (дата обращения: 08.09.2025).
  22. González-Gallardo C. E. et al. Leveraging open large language models for historical named entity recognition // International Conference on Theory and Practice of Digital Libraries. – Cham : Springer Nature Switzerland, 2024. – P. 379-395.
  23. Han R. et al. An empirical study on information extraction using large language models // arXiv preprint. – 2023. – arXiv:2305.14450. – URL: https://arxiv.org/abs/2305.14450 (дата обращения: 08.09.2025).
  24. Hauser J. et al. Large Language Models' Expert-level Global History Knowledge Benchmark (HiST-LLM) // Advances in Neural Information Processing Systems. – 2024. – Т. 37. – P. 32336-32369.
  25. Hiltmann T. et al. NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach // arXiv preprint. – 2025. – URL: https://arxiv.org/abs/2502.04351 (дата обращения: 08.09.2025).
  26. Hiltmann T. Hermeneutik in Zeiten der KI: Large Language Models als hermeneutische Instrumente in den Geschichtswissenschaften // KI:Text: Diskurse über KI-Textgeneratoren / ed. by G. Schreiber, L. Ohly. – Berlin ; Boston : De Gruyter, 2024. – S. 201-232.
  27. König M. ChatGPT und Co. in den Geschichtswissenschaften – Grundlagen, Prompts und Praxisbeispiele [Электронный ресурс] // Digital Humanities am DHIP. – 2024. – 19 Aug. – URL: https://dhdhi.hypotheses.org/9197 (дата обращения: 08.09.2025).
  28. Laato J. et al. Extracting Social Connections from Finnish Karelian Refugee Interviews Using LLMs // arXiv preprint. – 2025. – arXiv:2502.13566. – URL: https://arxiv.org/abs/2502.13566 (дата обращения: 08.09.2025).
  29. Lai V. D. et al. Event extraction from historical texts: A new dataset for black rebellions // Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. – 2021. – P. 2390-2400.
  30. Lavin M. Why digital humanists should emphasize situated data over capta [Электронный ресурс] // Digital Humanities Quarterly. – 2021. – Vol. 15, № 2. – URL: http://www.digitalhumanities.org/dhq/vol/15/2/000556/000556.html (дата обращения: 08.09.2025).
  31. Li J. et al. DiaryHelper: Exploring the use of an automatic contextual information recording agent for elicitation diary study // Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems. – 2024. – P. 1-16.
  32. Pan H. et al. Taxonomy-Driven Knowledge Graph Construction for Domain-Specific Scientific Applications // Findings of the Association for Computational Linguistics: ACL 2025. – 2025. – С. 4295-4320.
  33. Piskorski J., Yangarber R. Information extraction: Past, present and future // Multi-source, multilingual information extraction and summarization. – Berlin, Heidelberg : Springer Berlin Heidelberg, 2012. – P. 23-49.
  34. Santini C. Combining language models for knowledge extraction from Italian TEI editions // Frontiers in Computer Science. – 2024. – Т. 6. – P. 1472512.
  35. Shin D. et al. Using large language models to detect depression from user-generated diary text data as a novel approach in digital mental health screening: instrument validation study // Journal of Medical Internet Research. – 2024. – Т. 26. – P. e54617. – doi: 10.2196/54617. – EDN: VFSRAP.
  36. Thaller M. Historical Information Science: Is There such a Thing? New Comments on an old Idea // Seminario Discipline Umanistiche e Informatica. Il Problema dell'Integrazione/Ed. T. Orlandi. Roma. – 1993. – P. 51-86.
  37. Tang X. et al. CHisIEC: An Information Extraction Corpus for Ancient Chinese History // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). – 2024. – P. 3192-3202.
  38. Xie Y., La Mela M., Tell F. Multimodal LLM-assisted Information Extraction from Historical Documents: The Case of Swedish Patent Cards (1945–1975) and ChatGPT // The 9th Digital Humanities in the Nordic and Baltic Countries Conference (DHNB 2025), March 5-7, 2025, Tartu, Estonia. – University of Oslo Library, 2025. – P. 1-15.
  39. Xu D. et al. Large language models for generative information extraction: A survey // Frontiers of Computer Science. – 2024. – Т. 18. – № 6. – P. 186357.
  40. Zhang Y. et al. Teleclass: Taxonomy enrichment and llm-enhanced hierarchical text classification with minimal supervision // Proceedings of the ACM on Web Conference 2025. – 2025. – P. 2032-2042.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).