Сходимость многослойного персептрона к гистограммной байесовской регрессии

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Рассматривается задача повышения интерпретируемости и обоснованности решений байесовского классификатора при аппроксимации
эмпирических данных с использованием многослойного персептрона.
Гистограммная регрессия сохраняет прозрачность и статистическую интерпретацию,
но ограничена требованиями к памяти ($O(n)$) и низкой масштабируемостью,
тогда как многослойный персептрон обеспечивает эффективное по памяти представление ($O(1)$)
и высокую вычислительную эффективность при ограниченной интерпретируемости.
Особое внимание уделено унарной схеме обучения, при которой обучающая выборка
состоит из примеров одного целевого класса и дополнительных фоновых точек,
равномерно распределённых на компактном множестве признакового пространства.
Такой подход позволяет обрабатывать каждый класс изолированно и
реализовать механизм отказа от классификации вне носителя данных,
повышая надёжность модели.
Предлагается рассматривать выход персептрона как состоятельный аналог
гистограммного разбиения, индуцированного ячейками линейности персептрона.
Доказывается, что при естественных условиях регулярности и
контролируемом росте архитектуры выходная функция многослойного персептрона
является состоятельной и асимптотически эквивалентной гистограммной оценке.
Теоретическая состоятельность строго доказана для случая
фиксированного первого слоя, а численные эксперименты подтверждают
применимость результатов для моделей со всеми обучаемыми слоями.
Таким образом, гистограммная интерпретация обеспечивает
статистическую верификацию корректности аппроксимации персептрона
и способствует повышению доверия к классификационным решениям
в рамках унарной модели.
Библиография: 15 названий.

Об авторах

Никита Александрович Елисеев

Институт системного программирования им. В.П. Иванникова Российской академии наук

Email: neliseev@ispras.ru

Андрей Игоревич Перминов

Институт системного программирования им. В.П. Иванникова Российской академии наук

Email: perminov@ispras.ru
ORCID iD: 0000-0001-8047-0114

Денис Юрьевич Турдаков

Институт системного программирования им. В.П. Иванникова Российской академии наук; Исследовательский центр доверенного искусственного интеллекта ИСП РАН

Email: turdakov@ispras.ru
ORCID iD: 0000-0001-8745-0984

Список литературы

  1. M. Csikos, N. H. Mustafa, A. Kupavskii, “Tight lower bounds on the VC-dimension of geometric set systems”, J. Mach. Learn. Res., 20 (2019), 81, 8 pp.
  2. G. Cybenko, “Approximation by superpositions of a sigmoidal function”, Math. Control Signals Systems, 2:4 (1989), 303–314
  3. Bing Gao, Qiyu Sun, Yang Wang, Zhiqiang Xu, “Phase retrieval from the magnitudes of affine linear measurements”, Adv. in Appl. Math., 93 (2018), 121–141
  4. R. Giryes, G. Sapiro, A. M. Bronstein, “Deep neural networks with random Gaussian weights: a universal classification strategy?”, IEEE Trans. Signal Process., 64:13 (2016), 3444–3457
  5. A. Goujon, A. Etemadi, M. Unser, “On the number of regions of piecewise linear neural networks”, J. Comput. Appl. Math., 441 (2024), 115667, 22 pp.
  6. Feng Guo, Liguo Jiao, Do Sang Kim, “On continuous selections of polynomial functions”, Optimization, 73:2 (2024), 295–328
  7. M. Imaizumi, K. Fukumizu, “Deep neural networks learn non-smooth functions effectively”, Proceedings of the 22nd international conference on artificial intelligence and statistics, Proc. Mach. Learn. Res. (PMLR), 89, 2019, 869–878
  8. A. Janosi, W. Steinbrunn, M. Pfisterer, R. Detrano, Heart disease [Dataset], UCI Machine Learning Repository, 1989
  9. A. Nobel, “Histogram regression estimation using data-dependent partitions”, Ann. Statist., 24:3 (1996), 1084–1105
  10. Y. Plan, R. Vershynin, “Dimension reduction by random hyperplane tessellations”, Discrete Comput. Geom., 51:2 (2014), 438–461
  11. B. Ramana, N. Venkateswarlu, ILPD (Indian liver patient dataset) [Dataset], UCI Machine Learning Repository, 2022
  12. S. Scholtes, “Piecewise affine functions”, Introduction to piecewise differentiable equations, SpringerBriefs Optim., Springer, New York, 2012, 13–63
  13. W. Wolberg, O. Mangasarian, N. Street, W. Street, Breast cancer Wisconsin (Diagnostic) [Dataset], UCI Machine Learning Repository, 1993

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Елисеев Н.А., Перминов А.И., Турдаков Д.Ю., 2025

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).