Деформирующие преобразования изображений и их применение при аугментации данных для обучения глубоких нейронных сетей

Обложка

Цитировать

Полный текст

Аннотация

Проведены исследования возможностей аугментации (искусственного размножения) обучающих данных в задаче классификации с использованием деформирующих преобразований обрабатываемых изображений. Представлены математическая модель и быстродействующий алгоритм выполнения деформирующего преобразования изображения, при использовании которых исходное изображение преобразуется с сохранением своей структурной основы и отсутствием краевых эффектов. Предложенный алгоритм используется для аугментации наборов изображений в задаче классификации, содержащих относительно небольшое количество обучающих примеров. Аугментация исходной выборки осуществляется в два этапа, включающих зеркальное отображение и деформирующее преобразование каждого исходного изображения. Для проверки эффективности подобной техники аугментации в статье проводится обучение нейронных сетей – классификаторов различного вида: сверточных сетей стандартной архитектуры (convolutional neural network, CNN) и сетей с остаточными связями (deep residual network, DRN). Особенностью реализуемого подхода при решении рассматриваемой задачи является также отказ от использования предобученных нейронных сетей с большим количеством слоев и дальнейшим переносом обучения, поскольку их применение несет за собой затраты с точки зрения используемого вычислительного ресурса. Показано, что эффективность классификации изображений при реализации предложенного метода аугментации обучающих данных на выборках малого и среднего объема повышается до статистически значимых значений используемой метрики.

Об авторах

А. А Сирота

ФГБОУ ВО «Воронежский государственный университет»

Email: sir@cs.vsu.ru
Университетская площадь 1

А. В Акимов

ФГБОУ ВО «Воронежский государственный университет»

Email: akimov@vsu.ru
Университетская площадь 1

Р. Р Отырба

ФГБОУ ВО «Воронежский государственный университет»

Email: otyrba@cs.vsu.ru
Университетская площадь 1

Список литературы

  1. Chawla N.V., Lazarevic A., Hall L.O., Bowyer K.W. SMOTEBoost: Improving Prediction of the Minority Class in Boosting // 7th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD). 2003. pp. 107–119. doi: 10.1007/978-3-540-39804-2_12.
  2. Minaee S., Luo P., Lin Zh., Bowyer K. Going deeper into face detection: A survey // arXiv preprint. 2021. doi: 10.48550/arXiv.2103.14983.
  3. Ciresan D.C., Meier U., Gambardella L.M., Schmidhuber J. Deep, Big, Simple Neural Nets For Handwritten Digit Recognition // Neural computation. 2010. vol. 22. no. 12. pp. 3207–3220. doi: 10.1162/NECO_a_00052.
  4. Tao X., Zhang D., Ma W., Liu X., Xu D. Automatic Metallic Surface Defect Detection and Recognition with Convolutional Neural Networks // Applied Sciences. 2018. vol. 8. no. 9. pp. 1575–1590. doi: 10.3390/app8091575.
  5. Shorten C., Khoshgoftaar T.M. Survey on Image Data Augmentation for Deep Learning // Journal of Big Data. 2019. vol. 6. no. 1. pp. 1–48. doi: 10.1186/s40537-019-0197-0.
  6. Wang W., Xie E., Li X., Fan, D. P., Song, K., Liang, D., Lu T., Luo P., Shao, L. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions // Proceedings of the IEEE/CVF international conference on computer vision. 2021. pp. 568–578. doi: 10.1109/ICCV48922.2021.00061.
  7. Качалин С.В. Повышение устойчивости обучения больших нейронных сетей дополнением малых обучающих выборок примеров-родителей, синтезированными биометрическими примерами-потомками // Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. 2014. Т. 9. С. 32–35.
  8. Акимов А.В., Сирота А.А. Модели и алгоритмы искусственного размножения данных для обучения алгоритмов распознавания лиц методом Виолы–Джонса // Компьютерная оптика. 2016. Т. 40. № 6. С. 911–918. doi: 10.18287/2412-6179-2016-40-6-911-918.
  9. Небаба С.Г., Захарова А.А. Алгоритм построения деформируемых 3D моделей лица и обоснование его применимости в системах распознавания личности. Труды СПИИРАН. 2017. Т. 52. C. 157–179. doi: 10.15622/sp.52.8.
  10. Сирота А.А., Донских А.О., Акимов А.В., Минаков Д.А. Смешанные ядерные оценки многомерных распределений и их применение в задачах машинного обучения для классификации биологических объектов на основе спектральных измерений // Компьютерная оптика. 2019. Т. 43. № 4. С. 677–691. doi: 10.18287/2412-6179-2019-43-4-677-691.
  11. Дагаева М.В., Сулейманов М.А., Катасева Д.В., Катасёв, А.С., Кирпичников А.П. Технология построения отказоустойчивых нейросетевых моделей распознавания рукописных символов в системах биометрической аутентификации // Вестник Технологического университета. 2018. Т. 21. № 2. С. 133–138.
  12. Емельянов С.О., Иванова А.А., Швец Е.А., Николаев Д.П. Методы аугментации обучающих выборок в задачах классификации изображений // Сенсорные системы. 2018. Т. 32. № 3. С. 236–245. doi: 10.1134/S0235009218030058.
  13. Рюмина Е.В., Рюмин Д.А., Маркитантов М.В., Карпов А.А. Метод генерации обучающих данных для компьютерной системы обнаружения защитных масок на лицах людей // Компьютерная оптика. 2022. Т. 46. № 4. С. 603–611. doi: 10.18287/2412-6179-CO-1039.
  14. Камалова Ю.Б., Андриянов Н.А. Распознавание микроскопических изображений пыльцевых зерен с помощью сверточной нейронной сети VGG-16 // Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. 2022. Т. 22. № 3. С. 39–46. doi: 10.14529/ctcr220304.
  15. Ковун В.А., Каширина И.Л. Использование нейронной сети W-Net в металлографическом анализе образцов стали // Вестник ВГУ (Системный анализ и информационные технологии). 2022. № 1. С. 101–110. doi: 10.17308/sait.2022.1/9205.
  16. Simard P.Y., Steinkraus D., Platt J.C. Best practices for convolutional neural networks applied to visual document analysis // In Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR '03). 2003. vol. 2. pp. 1–6.
  17. Buslaev A., Iglovikov V.I., Khvedchenya E., Parinov A., Druzhinin M., Kalinin A.A. Albumentations: Fast and flexible image augmentations. Information. 2020. vol. 11. no. 2. pp. 1–20. doi: 10.3390/info11020125.
  18. Hasan S.M.K., Linte C.A. U-NetPlus: A modified encoder-decoder U-Net architecture for semantic and instance segmentation of surgical instruments from laparoscopic images // 41st Annual International Conference of the Ieee Engineering in Medicine and Biology Society (EMBC). 2019. pp. 7205–7211.
  19. Keysers D., Deselaers T., Gollan C., Ney H. Deformation models for image recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007. vol. 29(8). pp. 1422–1435. doi: 10.1109/TPAMI.2007.1153.
  20. Felzenswalb P., McAllester D., Ramanan D. A discriminatively trained, multiscale, deformable part model // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2008. pp. 1–8. doi: 10.1109/CVPR.2008.4587597.
  21. Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching // Proceedings of International Conference on Image Processing. 1997. vol. 1. pp. 129–132. doi: 10.1109/ICIP.1997.647401.
  22. Li X., Li W., Ren D., Zhang H., Wang M., Zuo W. Enhanced Blind Face Restoration with Multi-Exemplar Images and Adaptive Spatial Feature Fusion // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. pp. 2706–2715. doi: 10.1109/CVPR42600.2020.00278.
  23. Deng Y., Yang J., Tong X. Deformed Implicit Field: Modeling 3D Shapes With Learned Dense Correspondence // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. pp. 10286–10296. doi: 10.48550/arXiv.2011.13650.
  24. Venkatesh S., Ramachandra R., Raja K., Busch Ch. Face Morphing Attack Generation and Detection: A Comprehensive Survey // IEEE Transactions on Technology and Society. 2021. vol. 2. no. 3. pp. 128–145. doi: 10.1109/TTS.2021.3066254.
  25. Scherhag U., Rathgeb C., Merkle J. Busch C. Deep Face Representations for Differential Morphing Attack Detection // IEEE Transactions on Information Forensics and Security. 2020. vol. 15. pp. 3625–3639. doi: 10.1109/TIFS.2020.2994750.
  26. Ling H., Kreis K., Li D., Kim S.W., Torralba A., Fidler S. EditGAN: High-Precision Semantic Image Editing // Advances in Neural Information Processing Systems. 2021. vol. 34. pp. 16331–16345. doi: 10.48550/arXiv.2111.03186.
  27. Wang S.Y., Bau D., Zhu J.Y. Rewriting Geometric Rules of a GAN // ACM Transactions on Graphics (TOG). 2022. vol. 41. no. 4. pp. 1–16. doi: 10.48550/arXiv.2207.14288.
  28. Акимов А.В., Дрюченко М.А., Сирота А.А. Модели и алгоритмы внесения деформирующих искажений на изображениях с использованием радиально-базисных функций // Вестник ВГУ (Системный анализ и информационные технологии). 2014. № 1. С. 130–137.
  29. Захарова А.А., Небаба С.Г., Завьялов Д.А. Алгоритмическое и программное обеспечение для повышения эффективности обработки многомерных гетерогенных данных // Программирование. 2019. № 4. С. 64–70. doi: 10.1134/S0132347419040101.
  30. Buckley M.J. Fast computation of a discretized thin-plate smoothing spline for image data // Biometrika. 1994. vol. 81. no. 2. pp. 247–258. doi: 10.2307/2336955.
  31. Sastry S.P., Zala V., Kirby R.M. Thin-plate-spline curvilinear meshing on a calculus-of-variations framework // Procedia Engineering. 2015. vol. 124. pp. 135–147. doi: 10.1016/j.proeng.2015.10.128.
  32. Elastic Transform for Data Augmentation. URL: https://www.kaggle.com/code/bguberfain/elastic-transform-for-data-augmentation (accessed: 30.10.2023).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).