Автоматическая классификация текстовых документов в системе электронного документооборота вуза

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Рассмотрены вопросы автоматической классификации текстовых документов вуза в системе электронного документооборота. Представлен метод двухэтапной классификации на основе машинного обучения и числовой модели коллекции документов. Предлагается на первом этапе метода сокращать объем коллекции за счет отсеивания документов, не принадлежащих принятым классам (по оценке вероятности новизны документов). На втором этапе проводится отбор документов с наибольшими частотами вхождения слов, характерных для документов данного класса (формирование опорных векторов). Документу присваивается класс, к которому принадлежит большинство ближайших документов в соответствии с принятой метрикой расстояния. Реализован комплекс программ классификации текстовых документов, положенный в основу информационного обеспечения системы электронного документооборота вуза, и выполнены исследования, подтверждающие эффективность предлагаемого метода.

Об авторах

Анастасия Леонидовна Ткаченко

Московский областной филиал Московского университета Министерства внутренних дел Российской Федерации имени В.Я. Кикотя

Автор, ответственный за переписку.
Email: tanaleo@mail.ru

кандидат технических наук, инженер

Россия, пос. Старотеряево

Людмила Альбертовна Денисова

Федеральное государственное автономное образовательное учреждение высшего образования «Омский государственный технический университет»

Email: denisova@asoiu.com

профессор, доктор технических наук, доцент

Россия, г. Омск

Список литературы

  1. Wan Ch. H. et al. A Hybrid text classification approach with low dependency on parameter by integrating Knearest neighbour and support vector machine // Expert Systems with Applications, elsevier journal. – 2012. – Vol. 39. – no. 15. – P. 11880–11888.
  2. Su Y., Huang Y., Kuo Jay C.-C. Efficient Text Classification Using Tree-structured Multi-linear Principal Component Analysis // 24th International Conference on Pattern Recognition. – 2018. – С. 585-590.
  3. Nguyen L. Text classification based on support vector machine // Dalat University Journal Of Science. – 2019. – Vol. 9. – no. 2. – P. 3–19.
  4. Shah K. et al. A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification // Augmented Human Research. – 2020. – Vol. 5. – № 1. – P. 1-12.
  5. Tkachenko A. L., Denisova L. A. Designing an information system for the electronic document management of a university: Automatic classification of documents // Journal of Physics: Conference Series. – 2022. – P. 012035.
  6. Shichao Z. Efficient kNN Classification With Different Numbers of Nearest Neighbors // IEEE Transactions on Neural Networks and Learning Systems. – 2018. – Vol. 29. – no. 5. – P. 1774–1785.
  7. Wahdan A. et al. A systematic review of text classification research based on deep learning models in Arabic language // International Journal of Electrical and Computer Engineering (IJECE). – 2020. – Vol. 10. – no. 6. – P. 6629–6643.
  8. Zulqarnain M. et al. A comparative review on deep learning models for text classification // Indonesian Journal of Electrical Engineering and Computer Science. – 2020. – Vol. 19. – no. 1. – P. 325-335.
  9. Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. – 2012. – Т. 4. – №. 4. – С. 693-706.
  10. Карпович С. Н., Смирнов А. В., Тесля Н. Н. Учет неизвестных слов в вероятностной тематической модели // Информационные технологии и вычислительные системы. – 2020. – № 4. – С. 111-124.
  11. Свидетельство № 2022612195. Программа двухэтапной классификации текстовых документов высшего учебного заведения: программа для ЭВМ / А.Л. Ткаченко; правообладатель ФГБОУ ВО СибАДИ (RU). Заявл. 24.01.2022; опубл. 25.01.2022, Бюл. № 2 2022, 1,43 Кб.
  12. Ткаченко А. Л., Мещеряков В. А., Денисова Л. А. Проектирование информационно-аналитической системы для поддержки образовательного процесса технического вуза // Автоматизация в промышленности. – 2022. – № 4. – С. 7-14..
  13. Морфологический анализатор pymorphy2. URL: https://pymorphy2.readthedocs.io/en/stable/index.html (дата обращения: 30.05.2022).
  14. Костров Б. В., Баранчиков А. И., Клюева И. А. Ансамблевые методы в задаче мнококлассовой SVMклассификации // XXI век: итоги прошлого и проблемы настоящего плюс. – 2021. – Т. 10. – №. 2 (54). – С. 105-108.
  15. Ткаченко А. Л. Решение задачи классификации документов вуза на основе методов интеллектуального анализа // Вестник кибернетики. – 2021. – № 1 (41). – С. 12-19.
  16. Russian News 2020. News in Russian, collected from four sources. URL: https://www.kaggle.com/datasets/vfomenko/russian-news-2020 (дата обращения: 30.05.2022).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».