Применение тематического моделирования для оптимизации процесса поиска релевантных исторических документов (на примере биржевой прессы начала XX в.)
- Авторы: Галушко И.Н.1
-
Учреждения:
- Московский государственный университет имени М.В. Ломоносова
- Выпуск: № 2 (2023)
- Страницы: 129-144
- Раздел: Статьи
- URL: https://ogarev-online.ru/2585-7797/article/view/367045
- DOI: https://doi.org/10.7256/2585-7797.2023.2.43466
- EDN: https://elibrary.ru/SKBPNS
- ID: 367045
Цитировать
Полный текст
Аннотация
Ключевой задачей представленной статьи является апробация методики анализа информационного потенциала коллекции исторических источников с помощью тематического моделирования. Некоторые современные коллекции оцифрованных исторических материалов насчитывают десятки тысяч документов, и на уровне отдельного исследователя охват всего доступного наследия представляется затруднительным. Вслед за рядом исследователей мы предполагаем, что тематическое моделирование может стать удобным инструментом предварительной оценки содержания коллекции исторических документов; инструментом отбора только тех документов, в которых присутствует информация, релевантная поставленным исследовательским задачам. В нашем случае в качестве основной коллекции исторических документов была выбрана подборка газеты «Биржевые ведомости». На данном этапе мы можем подтвердить, что в рамках нашего исследования применение тематического моделирования оказалось продуктивным решением для оптимизации процесса поиска исторических документов в объемной коллекции оцифрованных исторических материалов. В то же время необходимо подчеркнуть, что в нашей работе тематическое моделирование применялось исключительно как прикладной инструмент ускорения поиска и первичной оценки информационного потенциала коллекции документов через анализ выделенных топиков. Наш опыт показал, что по крайней мере для «Биржевых ведомостей» тематическое моделирование с использованием LDA не позволяет делать выводы с позиции применяемой нами методологии содержательного анализа. Данные наших моделей слишком фрагментарны, их можно использовать только для первичной оценки тематик информации, содержащейся в источнике.
Об авторах
Илья Николаевич Галушко
Московский государственный университет имени М.В. Ломоносова
Email: i.galushko15@gmail.com
магистр; кафедра Исторической информатики;
Список литературы
URL: http://docs.historyrussia.org/ru/nodes/1-glavnaya Tze-I Yang, A.J.Torget, R.Mihalcea (2011). Topic modeling in historical newspapers. Marjanen, J., Zosa, E., Hengchen, S., Pivovarova, L., & Tolonen, M. (2020). Topic Modelling Discourse Dynamics in Historical Newspapers. DHN Post-Proceedings. Koentges, Thomas (2020). Measuring Philosophy in the First Thousand Years of Greek Literature. Egger, Roman (2020). A Topic Modeling Comparison Between LDA, NMF, Top2Vec, and BERTopic to Demystify Twitter Posts. Галушко И.Н. Корректировка результатов OCR-распознавания текста исторического источника с помощью нечетких множеств (на примере газеты начала XX века) // Историческая информатика. – 2023. – № 1. – С. 102-113. Представленная статья является частью моей магистерской диссертации по теме: «Поведенческие аспекты анализа доходности ценных бумаг на фондовом рынке Российской империи в начале XX века: контент-анализ биржевых нарративов». Найденные LDA-алгоритмом выпуски «Биржевых ведомостей» в данной работе рассматривались в сочетании с материалами фонда №143 ЦГАМ (Московский биржевой комитет) и трудами биржевых практиков начала XX в. (Васильев А.А. Биржевая спекуляция, теория и практика. СПб., 1912.). Воронцов К. В. Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM. 2020. GitHub. URL: https://github.com/iodinesky/Topic-modeling-in-historical-newspapers Воронцов К. В. Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM. 2023.
Дополнительные файлы

