Automatic Classification of Documents in the University Electronic Document Management System

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

The issues of automatic text documents classification of the university in the electronic document management system are considered. A two-stage classification method based on machine learning and a numerical representation of documents is presented. It is proposed at the first stage of the method to reduce the collection size by screening out documents that do not belong to accepted classes (according to the probability of novelty of documents). At the second stage, the selection of documents with the highest occurrence frequencies of words characteristic of accepted classes documents is carried out (the formation of support vectors). The document is assigned a class to which most of the closest documents belong in accordance with the accepted distance metric. A set of programs for the text documents classification has been implemented, which is the basis for the information support of the university electronic document management system, and studies have been carried out confirming the effectiveness of the proposed method.

About the authors

A. L. Tkachenko

IMoscow Regional Branch of the Moscow University of the Ministry of Internal Affairs of Russia named after V.Ya. Kikot

Author for correspondence.
Email: tanaleo@mail.ru

Candidate of Technical Sciences

Russian Federation, Staroteryaevo village

L. A. Denisova

Omsk State Technical University

Email: denisova@asoiu.com

Doctor of Technical Sciences, Professor

Russian Federation, Omsk

References

  1. Wan Ch. H. et al. A Hybrid text classification approach with low dependency on parameter by integrating Knearest neighbour and support vector machine // Expert Systems with Applications, elsevier journal. – 2012. – Vol. 39. – no. 15. – P. 11880–11888.
  2. Su Y., Huang Y., Kuo Jay C.-C. Efficient Text Classification Using Tree-structured Multi-linear Principal Component Analysis // 24th International Conference on Pattern Recognition. – 2018. – С. 585-590.
  3. Nguyen L. Text classification based on support vector machine // Dalat University Journal Of Science. – 2019. – Vol. 9. – no. 2. – P. 3–19.
  4. Shah K. et al. A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification // Augmented Human Research. – 2020. – Vol. 5. – № 1. – P. 1-12.
  5. Tkachenko A. L., Denisova L. A. Designing an information system for the electronic document management of a university: Automatic classification of documents // Journal of Physics: Conference Series. – 2022. – P. 012035.
  6. Shichao Z. Efficient kNN Classification With Different Numbers of Nearest Neighbors // IEEE Transactions on Neural Networks and Learning Systems. – 2018. – Vol. 29. – no. 5. – P. 1774–1785.
  7. Wahdan A. et al. A systematic review of text classification research based on deep learning models in Arabic language // International Journal of Electrical and Computer Engineering (IJECE). – 2020. – Vol. 10. – no. 6. – P. 6629–6643.
  8. Zulqarnain M. et al. A comparative review on deep learning models for text classification // Indonesian Journal of Electrical Engineering and Computer Science. – 2020. – Vol. 19. – no. 1. – P. 325-335.
  9. Vorontsov K. V., Potapenko A. A. 2012. Regulyarizaciya, robastnost' i razrezhennost' veroyatnostnyh tematicheskih modelej [Regularization, robustness and sparsity of probabilistic topic models]. Komp'yuternye issledovaniya i modelirovanie [Computer research and modeling]. 4(4): 693–706.
  10. Karpovich S. N., Smirnov A. V., Teslya N. N. 2020. Uchet neizvestnyh slov v veroyatnostnoj tematicheskoj modeli [Penalty for Unknown Words in Topic Model]. Informacionnye tekhnologii i vychislitel'nye sistemy [Information technologies and computing systems]. 4: 111-124.
  11. Certificate No. 2022612195. The program of two-stage classification of text documents of a higher educational institution: computer program / A.L. Tkachenko ; copyright holder of SibADI (RU). Application. 24.01.2022; publ. 25.01.2022, Bul. No. 2 2022, 1.43 Kb.
  12. Tkachenko A. L., Meshcheryakov V. A., Denisova L. A. Proektirovanie informacionno-analiticheskoj sistemy dlya podderzhki obrazovatel'nogo processa tekhnicheskogo vuza // Avtomatizaciya v promyshlennosti. – 2022. – № 4. – P. 7-14.
  13. Morfologicheskij analizator pymorphy2. URL: https://pymorphy2.readthedocs.io/en/stable/index.html (дата обращения: 30.05.2022).
  14. Kostrov B. V., Baranchikov A. I., Klyueva I. A. 2021. Ansamblevye metody v zadache mnokoklassovoj SVMklassifikacii [The ensemble methods in the multi-class SVM classification problem]. XXI vek: itogi proshlogo i problemy nastoyashchego
  15. Tkachenko A. L. 2021. Reshenie zadachi klassifikacii dokumentov vuza na osnove metodov intellektual'nogo analiza [Solving the problem of university documents classification based on intellectual analysis methods]. Vestnik kibernetiki [Bulletin of Cybernetics]. 1 (41): 12-19.
  16. Russian News 2020. News in Russian, collected from four sources. URL: https://www.kaggle.com/datasets/vfomenko/russian-news-2020 (date of access: 30.05.2022).

Supplementary files

Supplementary Files
Action
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».