Improving the Representativeness of the Training Dataset by Means of Spatial Balancing

Cover Page

Cite item

Full Text

Abstract

The study examines the specifics of training machine learning algorithms on small datasets and addresses the task of forming a training set with high representativeness. It is known that class imbalance in objects, typical for small datasets, negatively affects the performance of algorithms. To mitigate this issue, various data synthesis methods have been developed in machine learning to supplement existing datasets and equalize the number of objects per class. However, these methods do not solve the problem of insufficient representativeness. This article proposes a method for constructing a representative training dataset by specifying the distribution that best corresponds to reality. The distribution is formed for each feature within the informative areas. Informative areas contain characteristic values of features that are most significant for distinguishing classes of objects. The proposed method of constructing areas is based on the idea of gradual expansion, accompanied by an increase in the informativeness of the areas. At the same time, informativeness is understood as a measure reflecting how well objects of different classes can be separated using the considered area. To form a complementary dataset, a generation method has been developed. As a result of its application, the complementary dataset is combined with the original one and forms the specified distribution in the informative area. This distribution can be determined either based on expert knowledge about the subject area, if the true distribution is known, or obtained as a result of computational experiments aimed at finding the most effective option. The applicability of the method is demonstrated by solving the problem of determining the level of temperature anomalies of the mammary glands. It is shown that the considered temperature features are characterized by a normal distribution. Increasing the representativeness of the training set allowed training a classic classification algorithm – logistic regression – with an accuracy comparable to a multilayer neural network. This approach to the formation of a training dataset opens up the possibility of creating more transparent and interpretable artificial intelligence systems.

About the authors

A. G Losev

Volgograd State University

Email: alexander.losev@volsu.ru
Universitetsky Av. 100

I. E Popov

Volgograd State University

Email: popov.larion@volsu.ru
Universitetsky Av. 100

A. S Reznikova

Volgograd State University

Email: a.reznikova@volsu.ru
Universitetsky Av. 100

References

  1. Jakubik J., Vossing M., Kuhl N., Walk J. Satzger G. Data-Centric Artificial Intelligence // Business & Information Systems Engineering. 2024. vol. 66. no. 4. pp. 507–515.
  2. Kumar S., Datta S., Singh V., Singh S.K., Sharma R. Opportunities and Challenges in Data-Centric AI // IEEE Access. 2024. vol. 12. pp. 33173–33189.
  3. Hamid O.H. Data-Centric and Model-Centric AI: Twin Drivers of Compact and Robust Industry 4.0 Solutions // Applied Sciences. 2023. vol. 13. no. 5. doi: 10.3390/app13052753.
  4. Emmanuel T., Maupong T., Mpoeleng D., Semong T., Mphago B., Tabona O. A survey on missing data in machine learning // Journal of Big Data. 2021. vol. 8. no. 1. doi: 10.1186/s40537-021-00516-9.
  5. Gerber S, Pospisil L, Sys S, Hewel C, Torkamani A, Horenko I Co-Inference of Data Mislabelings Reveals Improved Models in Genomics and Breast Cancer Diagnostics // Frontiers in Artificial Intelligence 2022. vol. 4. doi: 10.3389/frai.2021.739432.
  6. Feng W., Quan Y., Dauphin G. Label Noise Cleaning with an Adaptive Ensemble Method Based on Noise Detection Metric // Sensors. 2020. no. 20(23). DOI: org/10.3390/s20236718.
  7. Чехомова О.В. О проблемах формирования административной ответственности за нарушения прав пациента // Юристъ - Правоведъ. 2010. № 3. C. 120–123.
  8. Собянин К.В., Куликова С.П. Unet-boosted classifier – мультизадачная архитектура для малых выборок на примере классификации МРТ снимков головного мозга // Информатика и автоматизация. 2024. Т. 23. № 4. C. 1022–1046.
  9. Зуев Ю.Ф. Сравнительная оценка достоверности биологических данных при малых выборках методами дисперсионного, кластерного и графового анализа (нестохастический подход) // Актуальные проблемы гуманитарных и естественных наук. 2015. № 1-1. С. 36–45.
  10. Моргунова А.В., Сажина О.С. Использование непараметрических методов математической статистики для поиска космических струн // Вестник Московского университета. Серия 3. Физика. Астрономия. 2019. № 5. C. 86–92.
  11. Мокеев В.В., Томилов С.В. О решении проблемы выборки малого размера при использовании линейного дискриминантного анализа в задачах распознавания лиц // Бизнес-информатика. 2013. № 1(23). C. 37–43.
  12. Алексахина К.А., Жуков В.В. Особенности построения моделей машинного обучения на малых наборах данных в биомедицине // Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов, 2021. С. 151–155.
  13. Hu Y., Sandt R., Spatschek R. Practical feature filter strategy to machine learning for small datasets in chemistry // Scientific Reports. 2024. vol. 14. no. 1. doi: 10.1038/s41598-024-71342-1.
  14. Safonova A., Ghazaryan G., Stiller S., Main-Knorn M., Nendel C., Ryo M. Ten deep learning techniques to address small data problems with remote sensing // International Journal of Applied Earth Observation and Geoinformation. 2023. vol. 125. doi: 10.1016/j.jag.2023.103569.
  15. He H., Garcia E.A. Learning from Imbalanced Data // IEEE Transactions on Knowledge and Data Engineering. 2009. vol. 21. no. 9. pp. 1263–1284. doi: 10.1109/TKDE.2008.239.
  16. Polyakov M., Sirotin D. A Realistic Breast Phantom for Investigating the Features of the Microwave Radiometry Method Using Mathematical and Physical Modelling // Technologies. 2025. vol. 13(3). doi: 10.3390/technologies13030106.
  17. Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-sampling technique // Journal of Artificial Intelligence Research. 2002. vol. 16. pp. 321–357. doi: 10.1613/jair.953.
  18. Hauptmann T., Fellenz S., Nathan L., Tuscher O., Kramer S. Discriminative Machine Learning for Maximal Representative Subsampling // Scientific Reports. 2023. vol. 13. no. 1. doi: 10.1038/s41598-023-48177-3.
  19. Priestley M., O’Donnell F., Simperl E. A Survey of Data Quality Requirements That Matter in ML Development Pipelines // ACM Journal of Data and Information Quality. 2023. vol. 15. no. 2. pp. 1–39. doi: 10.1145/3592616.
  20. Levshinskii V. Mathematical models for analyzing and interpreting microwave radiometry data in medical diagnosis // Journal of computational and engineering mathematics. 2021. vol. 8. no. 1. pp. 3–14.
  21. Лебедев А.В., Фадеева Л.Н. Теория вероятностей и математическая статистика (4-е издание) // М.: Наука. 2018. 408 с.
  22. Kwon S., Lee S. Recent Advances in Microwave Imaging for Breast Cancer Detection // International journal of biomedical imaging. 2016. vol. 2016. pp. 1–25. doi: 10.1155/2016/5054912.
  23. Barrett A.H., Myers P.C. Subcutaneous Temperature: A method of Noninvasive Sensing // Science. 1975. vol. 190. pp. 669–671. doi: 10.1126/science.1188361.
  24. Barrett A.H., Myers Ph.C., Sadovsky N.L. Microwave Thermography in the Detection of Breast Cancer // AJR. American journal of roentgenolog. 1980. vol. 134(2). pp. 365–368. doi: 10.2214/ajr.134.2.365.
  25. Gautherie M. Temperature and Blood Flow Patterns in Breast Cancer During Natural Evolution and Following Radiotherapy // Progress in Clinical and Biological Research. 1982. pp. 21–64.
  26. Троицкий В.С. К теории контактных радиометрических измерений внутренней температуры тел // Радиофизика. 1981. Т. 2. № 9. C. 1054–1061.
  27. Goryanin I., Karbainov S., Shevelev O., Tarakanov A., Redpath K., Vesnin S., Ivanov Yu. Passive microwave radiometry in biomedical studies // Drug Discovery Today. 2020. vol. 25. no. 4. pp. 757–763.
  28. Попов И.Е., Крылова А.Е. Анализ термометрических данных головного мозга, полученных методом микроволновой радиотермометрии // Математическая физика и компьютерное моделирование. 2023. Т. 26. № 2. С. 32–42. doi: 10.15688/mpcm.jvolsu.2023.2.3.
  29. Sedankin M.K., Gudkov A.G., Nelin I.V., Skuratov V.A., Leushin V.Yu, Chizhikov S.V., Sidorov I.A. Mathematical modeling of heat exchange processes in the brain in the presence of pathology for the design of a microwave radiothermograph // Bio-Medical Engineering. 2023. vol. 57. no. 4. pp. 276–279. doi: 10.1007/s10527-023-10314-7.
  30. Li J., Galazis C., Popov L., Ovchinnikov L., Kharybina T., Vesnin S., Losev A., Goryanin I Dynamic Weight Agnostic Neural Networks and Medical Microwave Radiometry (MWR) for Breast Cancer Diagnostics // Diagnostics. 2022. vol. 12. no. 9. doi: 10.3390/diagnostics12092037.
  31. Веснин С.Г., Каплан М.А., Авакян Р.С. Современная микроволновая
  32. радиотермометрия молочных желез // Опухоли женской репродуктивной системы. 2008. № 3. С. 28–33. doi: 10.17650/1994-4098-2008-0-3-28-33.
  33. Лосев А.Г., Левшинский В.В. Интеллектуальный анализ данных микроволновой радиотермометрии в диагностике рака молочной железы // Математическая физика и компьютерное моделирование. 2017. Т. 20. № 5. С. 49–62. doi: 10.15688/mpcm.jvolsu.2017.5.6.
  34. Лосев А.Г., Левшинский В.В. Интеллектуальный анализ термометрических данных в диагностике молочных желез // Управление большими системами: сборник трудов. 2017. № 70. С. 113–135.
  35. Levshinskii V., Galazis C., Ovchinnikov L., Vesnin S., Goryanin I. Application of Data Mining and Machine Learning in Microwave Radiometry (MWR) // Communications in Computer and Information Science (CCIS). 2020. vol. 1211. pp. 265–288. doi: 10.1007/978-3-030-46970-2_13.
  36. Гермашев И.В., Дубовская В.И. Применение моделей нечеткой математики для решения задач медицинской диагностики // Математическая физика и компьютерное моделирование. 2021. Т. 24. № 4. С. 53–66. doi: 10.15688/mpcm.jvolsu.2021.4.4.
  37. Osmonov B., Ovchinnikov L., Galazis C., Emilov B., Karaibragimov M., Seitov M., Vesnin S., Losev A., Levshinskii V., Popov I., Mustafin C., Kasymbekov T., Goryanin I. Passive Microwave Radiometry for the Diagnosis of Coronavirus Disease 2019 Lung Complications in Kyrgyzstan // Diagnostics. 2021. vol. 11. no. 2. doi: 10.3390/diagnostics11020259.
  38. Лосев А.Г., Попов И.Е., Гудков А.Г., Чижиков С. В. Интеллектуальный анализ данных микроволновой радиотермометрии в медицинской диагностике // Нанотехнологии: разработка, применение – XXI век. 2023. Т. 15. № 1. С. 5–22. doi: 10.18127/j22250980-202301-01.
  39. Ahmad H.F., Mukhtar H., Alaqail H., Seliaman M., Alhumam A. Investigating Health-Related Features and Their Impact on the Prediction of Diabetes Using Machine Learning // Applied Sciences. 2021. vol. 11. no. 3. doi: 10.3390/app11031173.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).