Мир глазами образованного человека г. Минусинска конца XIX - начала XX веков: распределение частотности географических названий в книгах Минусинской общественной библиотеки

Обложка

Цитировать

Полный текст

Аннотация

Предметом исследования является корпус детской литературы из собрания Минусинской общественной библиотеки конца XIX – начала XX века, состоящий из 121 произведения, написанных между 1719 и 1905 годами. Эти тексты представляют собой значимый источник для изучения формирования географического восприятия у жителей провинциального сибирского города через художественную литературу. Особое внимание уделено анализу географических названий (топонимов), встречающихся в текстах, с целью выявления их частоты и географического распределения. Это позволяет реконструировать картину мира, представленную в книгах того времени, и понять, как она воспринималась детской аудиторией, формируя их представление о странах, городах и культурных центрах. Работа направлена на изучение роли детской литературы как культурного инструмента, который отражает и формирует географические представления, а также на выявление методологических вызовов и ограничений при работе с историческими корпусами. Методологическая основа включает приведение дореформенных текстов к машиночитаемому виду с использованием инструментов оцифровки и геопарсинг для автоматического выявления географических сущностей. Для анализа применялась библиотека Spacy с последующей ручной проверкой и корректировкой данных. Результаты исследования включают выявление 668 городов и 97 стран, представленных в текстах, а также построение картографической визуализации частотного распределения упоминаний. Анализ выявил неравномерность распределения географических наименований в различных текстах, где преобладают упоминания России, Польши и Англии среди стран, а Киева, Москвы и Санкт-Петербурга среди городов. Область применения результатов включает исследования в области цифровых гуманитарных наук, библиотековедения и историко-культурных исследований. Новизна же работы заключается в использовании современных методов геопарсинга для обработки русскоязычных текстов дореформенной орфографии и в анализе ранее не изученного корпуса литературы Минусинской библиотеки. Выводы подчеркивают значимость картирования текстов для понимания формирования географического восприятия и необходимость дальнейшего развития инструментов NER для сложных корпусов. Несмотря на ограничения, исследование вносит вклад в развитие методов NLP для исторических текстов.

Об авторах

Вадим Александрович Меховский

Сибирский федеральный университет

Email: mehovsky.zenit-champion@yandex.ru
ORCID iD: 0009-0000-7786-0939
магистр; кафедра информационных технологий в креативных и культурных индустриях; Специалист лаборатории DHlab; Лаборатория DHlab;

Инна Александровна Кижнер

Сибирский федеральный университет

Email: inna.kizhner@gmail.com
ORCID iD: 0000-0002-0775-9656
доцент; кафедра информационных технологий в креативных и культурных индустриях;Старший научный сотрудник лаборатории DHlab;

Список литературы

  1. Ли Дж., Сан А., Хан Дж., Ли К. Обзор глубокого обучения для распознавания именованных сущностей // IEEE Transactions on Knowledge and Data Engineering. 2020. С. 122-127.
  2. Надео Д., Секин С. Обзор распознавания и классификации именованных сущностей // Международный журнал по компьютерной лингвистике и приложениям. 2007. С. 3-26.
  3. Ламп Г., Баллестерос М., Субраманиан С., Каваками К., Дайер К. Нейронные архитектуры для распознавания именованных сущностей // Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики: технологии обработки естественного языка. 2016. С. 260-270.
  4. Лю З., Янович К., Цай Л., Чжу Р., Май Г., Ши М. Геопарсинг: решение или предвзятость? Оценка географических предвзятостей в геопарсинге // AGILE: серия "ГИС-наука". 2022. С. 13.
  5. Бургмайстер М. Измерение городских изменений в текстах о путешествиях на примере города Грац в XIX веке // magazen. 2022. Т. 3, № 1. С. 61-90.
  6. Эванс Э., Уилкенс М. Нация, этническая принадлежность и география британской художественной литературы, 1880–1940 гг. // Журнал культурного анализа. 2018. С. 48.
  7. Смайл Р., Грегори И., Тейлор Дж. Качественная география в цифровых текстах: представление исторических пространственных идентичностей в Озерном крае // Международный журнал гуманитарных и художественных вычислений. 2019. С. 28-38.
  8. Файз Дж., Монкла Л., Мартинс Б. Глубокое обучение для распознавания топонимов: геокодирование на основе пар топонимов // Международный журнал ISPRS по геоинформации. 2021. С. 16.
  9. Тамбускио М., Эндрюс Т.Л. Геолокация и распознавание именованных сущностей в древних текстах: тематическое исследование армянской истории Гевунда // Конференция по исследованиям в области гуманитарных наук. 17-19 ноября 2021 года. Амстердам, 2021. С. 136-148.
  10. Санджакомо А., Хогенбирк Х., Танасеску Р., Караисл А., Уайт Н. Чтение в тумане: высококачественное оптическое распознавание символов на основе свободно доступных оцифрованных книг раннего Нового времени // Digital Scholarship in the Humanities. 2022. Т. 37, № 4. С. 1197-1209. doi: 10.1093/llc/fqac014 EDN: IWWDWY
  11. Стракова Й., Страка М., Хайич Й. Нейронные архитектуры для вложенного NER с помощью линеаризации // Материалы 57-й ежегодной конференции Ассоциации компьютерной лингвистики. 2019. С. 6.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).