Повышение точности моделей прогнозирования временных рядов с помощью метода скользящего окна

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Данное исследование посвящено методам прогнозирования рынка труда ИТ-вакансий, в рамках которого изучаются вопросы выявления трендов, анализа остатков и сезонности временных рядов. В данном работе авторы основное внимание уделяют влиянию метода скользящего окна на модели прогнозирования временного ряда. Использование такого подхода предобработки данных направлен на повышение точности моделей машинного обучения для прогнозирования временных рядов. Рассматриваемый метод основывается на разбиении непрерывного временного ряда на множество последовательных и пересекающихся периодов с фиксированным размером, что позволяет моделям прогнозирования эффективно отслеживать временные характеристики. В работа был проведен эксперимент по оценке влияния использования метода скользящего окна в сочетании с различными моделями прогнозирования на качество прогноза ИТ-вакансий на наборе данных, содержащем 1 048 576 строк с информацией о вакансиях. В эксперименте в качестве моделей прогнозирования использовались LSTM, ARIMA, SARIMA и модель Холта. Для оценки качества моделей применялись метрики MSE, RMSE и MAE. Такое сочетание техники предобработки и модели обеспечивает устойчивость качества прогноза к чувствительности данных и адаптированность к резким изменениям в данных временного ряда, что значительно снижает ошибки прогнозирования по качественным показателям. Эксперимент показал, что модель LSTM оказалась наиболее эффективной благодаря способности более глубоко изучать сложные закономерности и выявлять долгосрочные зависимости, продемонстрировав прирост качества базовой модели с использованием метода скользящего окна по метрике MAE на 0,248 условные единицы, по MSE – на 2,649, по RMSE – на 0,162, по сравнению с базовой моделью (без скользящего окна). Таким образом, авторы работы показывают, что методы скользящего окна весьма полезны для построения устойчивых и адаптивных моделей прогнозирования.

Об авторах

Ребекка Ндунги

Санкт-Петербургский государственный университет

Автор, ответственный за переписку.
Email: Rebeccahndungi94@gmail.com
ORCID iD: 0000-0002-0389-9758
Scopus Author ID: 58106191000
ResearcherId: rid66654

аспирант, факультет математики и компьютерных наук

Россия, г. Санкт-Петербург

Иван Станиславович Блеканов

Санкт-Петербургский государственный университет

Email: I.blekanov@spbu.ru
ORCID iD: 0000-0002-7305-1429
SPIN-код: 7473-1900
Scopus Author ID: 56149559700
ResearcherId: G-8844-2015

кандидат технических наук, доцент; заведующий, кафедра технологий программирования

Россия, г. Санкт-Петербург

Список литературы

  1. Alsharef A., Aggarwal K., Garg S. et al. Review of ML and AutoML solutions to forecast time-series data. Archives of Computational Methods in Engineering. 2022. Vol. 29. No. 7. Pp. 5297–5311. doi: 10.1007/S11831-022-09765-0/METRICS.
  2. Fatima S.S.W., Rahimi A. A Review of time-series forecasting algorithms for industrial manufacturing systems. Machines. 2024. Vol. 12. No. 6. P. 380. doi: 10.3390/MACHINES12060380.
  3. Itzhak N., Jaroszewicz S., Moskovitch R. Temporal ensemble of multiple patterns’ instances for continuous prediction of events. Mach. Learn. 2025. Vol. 114. No. 5. Pp. 1–42. doi: 10.1007/S10994-025-06756-7/FIGURES/16.
  4. Christensen H.B., Hail L., Leuz C. Mandatory CSR and sustainability reporting: Economic analysis and literature review. Review of Accounting Studies. 2021. Vol. 26. No. 3. Pp. 1176–1248. doi: 10.1007/S11142-021-09609-5.
  5. Kontopoulou V.I., Panagopoulos A.D., Kakkos I., Matsopoulos G.K. A review of ARIMA vs. machine learning approaches for time series forecasting in data driven networks. Future Internet. 2023. Vol. 15. No. 8. P. 255. doi: 10.3390/FI15080255.
  6. Forecasting labor and skill demand by sector and occupation. In 2 vols. Vol. 1: Case studies and guidance. URL: https://documents.worldbank.org/en/publication/documents-reports/documentdetail/251591531754581450/case-studies-and-guidance (data of accesses: 19.04.2025).
  7. Yurtsever M. Unemployment rate forecasting: LSTM-GRU hybrid approach. J. Labour. Mark. Res. 2023. Vol. 57. No. 1. Pp. 1–9. doi: 10.1186/S12651-023-00345-8/FIGURES/5.
  8. Vorobev A.V., Kudinov V.A. The importance of forecasting in industrial enterprise management using machine learning. Scientific and Technical Information Processing. 2022. Vol. 49. No. 5. Pp. 393–398. doi: 10.3103/S0147688222050173.
  9. Hewamalage H., Ackermann K., Bergmeir C. Forecast evaluation for data scientists: Common pitfalls and best practices. Data Min Knowl Discov. 2023. Vol. 37. No. 2. Pp. 788–832. doi: 10.1007/S10618-022-00894-5/FIGURES/14.
  10. Lukats D., Zielinski O., Hahn A., Stahl F. A benchmark and survey of fully unsupervised concept drift detectors on real-world data streams. Int. J. Data Sci. Anal. 2024. Vol. 19. No. 1. Pp. 1–31. doi: 10.1007/S41060-024-00620-Y/FIGURES/13.
  11. Zhang J., Zeng Y., Starly B. Recurrent neural networks with long-term temporal dependencies in machine tool wear diagnosis and prognosis. SN Appl. Sci. 2021. Vol. 3. No. 4. Pp. 1–13.. doi: 10.1007/S42452-021-04427-5/FIGURES/7.
  12. Hyndman R.J., Khandakar Y. Automatic time series forecasting: The forecast package for R. J. Stat. Softw. 2008. Vol. 27. No. 3. Pp. 1–22. doi: 10.18637/JSS.V027.I03.
  13. Forecasting: Principles and practice. 3rd ed. Accessed: Nov. 14, 2024. URL: https://otexts.com/fpp3/ (data of accesses: 14.11.2024).
  14. Fokianos K., Fried R. Interventions in log-linear Poisson autoregression. Statistical Modelling. 2012. Vol. 12. No. 4. Pp. 299–322. doi: 10.1177/1471082X1201200401.
  15. Zhang G., Patuwo B.E., Hu M.Y. Forecasting with artificial neural networks: The state of the art. Int. J. Forecast. 1998. Vol. 14. No. 1. Pp. 35–62. doi: 10.1016/S0169-2070(97)00044-7.
  16. Vafaeipour M., Rahbari O., Rosen M.A. et al. Application of sliding window technique for prediction of wind velocity time series. International Journal of Energy and Environmental Engineering. 2014. Vol. 5. No. 2–3. Pp. 1–7. doi: 10.1007/S40095-014-0105-5/FIGURES/7.
  17. Chen Y., Fan X., Huang R. et al. Choose an item. Artificial intelligence/machine learning technology in power system applications. 2024. URL: www.osti.gov (data of accesses: 19.04.2025).
  18. Bressane A., Garcia A.J. da S., de Castro M.V. et al. Fuzzy machine learning applications in environmental engineering: Does the ability to deal with uncertainty matter? Sustainability. 2024. Vol. 16. No. 11. P. 4525. doi: 10.3390/SU16114525.
  19. Wu J.M.T., Li Z., Herencsar N. et al. A graph-based CNN-LSTM stock price prediction algorithm with leading indicators. Multimed. Syst. 2023. Vol. 29. No. 3. Pp. 1751–1770. doi: 10.1007/S00530-021-00758-W/TABLES/15.
  20. Tao Z., Xu Q., Liu X., Liu J. An integrated approach implementing sliding window and DTW distance for time series forecasting tasks. Applied Intelligence. 2023. Vol. 53. No. 17. Pp. 20614–20625. doi: 10.1007/S10489-023-04590-9/METRICS.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Архитектурный трубопровод

Скачать (80KB)
3. Рис. 2. Тренд (а), сезонность (b), остатки (c)

Скачать (388KB)


Ссылка на описание лицензии: https://www.urvak.ru/contacts/

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».