Снижение размерности массивов данных с помощью многослойных автокодировщиков в задаче классификации мобильных приложений

Обложка

Цитировать

Полный текст

Аннотация

Рассматривается задача уменьшения размерности исходных массивов данных для улучшения эффективности обработки трафика мобильных приложений. Актуальность исследования обусловлена необходимостью оптимизации объемов передаваемых и хранимых данных при работе в условиях ограниченных вычислительных ресурсов, а также повышения скорости и качества аналитических операций. Для решения поставленной задачи применяются многослойные автокодировщики, способные формировать компактные представления исходных данных с минимальными потерями в их информативности. Подход базируется на идее обучения нейросетевых моделей, извлекающих наиболее существенные признаки из исходных массивов и способных восстанавливать их с заданным уровнем точности.Используемые методы. В ходе экспериментов применялись различные архитектуры многослойных автокодировщиков, отличающиеся количеством слоев и размерностями скрытых представлений. Исследования проводились на реальных наборах данных, собранных из мобильных приложений широкого спектра функционала. Анализ осуществлялся путем варьирования внутренних параметров сетей и оценки результатов через интегральный статистический показатель, отражающий степень сжатия. Данный показатель позволяет выявить, насколько сильно изменяется разброс атрибутов при пропускании данных через автокодировщик.Результаты. Для оценки фильтрующих свойств многослойных автокодировщиков предложен интегральный показатель сжатия, характеризующий изменение разброса атрибутов мобильных приложений при пропускании их через автокодировщик заданной структуры. Показатель рассчитывается как отношение среднеквадратического отклонения атрибутов на входе и на выходе, что позволяет оценить степень сжатия данных и степень сохранности информации после обработки. Показано, что увеличение интегрального показателя сжатия свидетельствует о более значительном сжатии исходных данных. Установлено, что фильтрация практически не зависит от типа приложения и лежит в пределах 10-20 % для автокодировщиков с тремя слоями, тогда как для пятислойных автокодировщиков предпочтение отдается кодировщикам с минимальной размерностью внутреннего слоя. Основная новизна работы заключается в разработке интегрального статистического показателя, который не только отражает степень сжатия данных мобильных приложений, но и учитывает сохранность исходной информационной структуры. В отличие от существующих подходов, данный показатель позволяет проводить систематическое сравнение различных архитектур автокодировщиков с учетом не только уменьшения размерности, но и качества восстановления исходной информации. Это создает основу для более объективной оценки эффективности многослойных автокодировщиков в конкретных прикладных условиях. Практическая значимость. Предложенная методология может быть полезна разработчикам и исследователям, работающим над оптимизацией систем сбора, хранения и обработки данных мобильных приложений. В условиях ограниченных вычислительных ресурсов, характерных для мобильных устройств и встроенных систем, использование многослойных автокодировщиков, настроенных на достижение заданного баланса между сжатием и сохранением информации, обеспечивает существенное сокращение объема передаваемых данных. Результаты исследования могут быть внедрены в существующие аналитические платформы, системы мониторинга и классификации мобильных приложений.

Об авторах

О. И. Шелухин

Московский технический университет связи и информатики

Email: sheluhin@mail.ru
ORCID iD: 0000-0001-7564-6744
SPIN-код: 5983-2285

Ф. А. Маторин

Московский технический университет связи и информатики

Email: f.matorin@mail.ru
ORCID iD: 0009-0002-4897-2338
SPIN-код: 7736-5283

Список литературы

  1. Goodfellow I., Bengio Y., Courville A. Deep Learning. The MIT Press, 2016. 800 p.
  2. Hinton G.E., Osindero S., Teh Y.W. A Fast Learning Algorithm for Deep Belief Nets // Neural Computation. 2006. Vol. 18. Iss. 7. PP. 1527–1554. doi: 10.1162/neco.2006.18.7.1527
  3. Salakhutdinov R., Hinton G.E. Deep Boltzmann Machines // Proceedings of the Twelfth International Conference on Artificial Intelligence and Statistics (Clearwater Beach, USA). Proceedings of Machine Learning Research. 2009. Vol. 5. PP. 448–455.
  4. Кузьмина М.Г. Многослойные сети-автоэнкодеры в задачах анализа и обработки гиперспектральных изображений // Препринты ИПМ им. М. В. Келдыша. 2021. № 28. 21 с. doi: 10.20948/prepr-2021-28
  5. Kramer M.A. Nonlinear principal component analysis using autoassociative neural networks // AIChE Journal. 1991. Vol. 37. Iss. 2. PP. 233‒243. doi: 10.1002/aic.690370209
  6. Bengio Y., Lamblin P., Popovici D., Larochelle H. Greedy Layer-Wise Training of Deep Networks // In: Advances in Neural Information Processing Systems (B. Schölkopf, J. Platt, T. Hoffman (eds.). Cambridge, 2007. PP. 153–160.
  7. Windrim L., Ramakrishnan R., Melkumyan A., Murphy R.J., Chlingaryan A. Unsupervised feature-learning for hyper-spectral data with autoencoders // Remote Sensing. 2019. Vol. 11. Iss. 7. P. 864. doi: 10.3390/rs11070864
  8. Шелухин О.И., Барков В.В., Симонян А.Г. Обнаружение дрейфа концепта при классификации мобильных приложений с использованием автокодировщиков // Наукоемкие технологии в космических исследованиях Земли. 2023. Т. 15. № 3. С. 20–29. doi: 10.36724/2409-5419-2023-15-3-20-29. EDN:KBWOOG
  9. Шелухин О.И., Барков В.В., Маторин Ф.А. Повышение эффективности классификации противоправных и нежелательных приложений в условиях фонового трафика с помощью автокодировщиков // Вестник Санкт-Петербургского государственного университета технологии и дизайна: Серия 1. Естественные и технические науки. 2023. № 3. С. 159–165. doi: 10.46418/2079-8199_2023_3_25. EDN:RLBDBM
  10. Ososkov G., Goncharov P. Shallow and deep learning for image classification // Optical Memory and Neural Networks. 2017. Vol. 26. Iss. 4. PP. 221–248. doi: 10.3103/S1060992X1704004X

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».