Visual Scenario Development Platform Used to Model Real Estate Market Processes
- Authors: Egorova D.K.1, Denisov R.V.1
-
Affiliations:
- National Research Mordovia State University
- Issue: Vol 13, No 1 (2025)
- Pages: 53-63
- Section: Technical Sciences
- Submitted: 25.02.2025
- Accepted: 05.03.2025
- URL: https://ogarev-online.ru/2311-2468/article/view/281384
- DOI: https://doi.org/10.15507/2311-2468.013.202501.053-063
- EDN: https://elibrary.ru/vzpbva
- ID: 281384
Cite item
Full Text
Abstract
Introduction. The real estate market is a key sector of the economy with high price dynamics, dependence on macroeconomic factors and complexity of forecasting. Traditional analysis methods require a lot of time and resources, which limits their application. Using low-code platforms allows you to reduce the cost of developing models and make analysis tools accessible to specialists without advanced programming skills. The purpose of the study is to demonstrate the use of KNIME to predict the value of real estate and their classification. In addition, it is necessary to assess how accurate the models are and how useful they are in practice.
Materials and Methods. Real estate market processes were modeled using KNIME Analytics Platform for visual scenario development. Real estate data is collected using the Cyanparser Python library, and regression analysis and data visualization methods are implemented in KNIME Analytics Platform.
Results. Linear and polynomial regression of real estate prices according to specified parameters is constructed, clusterization of real estate objects and visualization of the results are performed. Clustering revealed three groups of objects correlating with location and infrastructure.
Discussion and Conclusion. KNIME has confirmed its effectiveness as a low-code tool for analyzing the real estate market. The materials of the article can be useful for understanding the dynamics of the real estate market and forecasting its future trends.
Full Text
Введение
В настоящее время анализ данных и моделирование процессов играют ключевую роль в принятии эффективных решений. Рынок недвижимости не является исключением. Его сложность и высокая волатильность требуют применения определенных инструментов и методов для понимания динамики и прогнозирования будущих тенденций.
Весьма актуальным здесь является использование инструментария low-code, позволяющего сократить время разработки моделей для специалистов без глубоких навыков программирования. В частности, «процесс анализа следует “собирать” из своего рода узлов-nodes, в которых используются библиотеки Python, R, JavaScript» [1].
Примером такого инструмента является аналитическая платформа визуальной разработки сценариев KNIME[1], которая может использоваться для моделирования процессов рынка недвижимости – извлечения данных, построения модели прогнозирования цен на недвижимость, кластеризации объектов недвижимости по нескольким параметрам, визуализации результатов.
Цель исследования – продемонстрировать применение KNIME для прогнозирования цен и кластеризации объектов недвижимости, оценив точность моделей и их практическое использование.
Обзор литературы
В данном направлении проведено множество исследований. Например, предложен подход к определению стоимости объектов недвижимости на основе метода бинарного кодирования качественных характеристик объекта недвижимости, выполнен кластерный анализ определения схожих по характеристикам объектов, построена регрессионная модель стоимости объекта недвижимости [2]. В. Н. Деркаченко построена модель краткосрочного прогноза средней цены одного квадратного метра жилья [3].
Для анализа рынка недвижимости М. А. Зуев использовал метод кластеризации k-means, чтобы найти оптимальное число кластеров в рамках решения задачи для одного мегаполиса [4]. На основе исследования эластичности цен на жилье по доходам и типизации рынков Г. М. Стерник построил линейные модели прогнозирования цен на жилье при наличии прогнозов динамики душевых доходов населения [5].
В работах[2] [6; 7] приведен обзор и сравнительный анализ инструментария Data Mining, таких как Weka, RapidMiner, TANAGRA, Orange, Deductor, WizWhy KNIME и т. д. Рассмотрены принципы работы данных инструментов, представлены основные критерии для их сравнения.
Средствами KNIME реализована кластеризация однородных районов в рамках крупных территориальных образований, которая может быть использована при организации обоснованного государственного финансирования развития территорий [8].
При этом потенциал KNIME для задач кластеризации и прогнозирования в контексте региональных рынков недвижимости изучен недостаточно, что определяет научную новизну исследования.
Материалы и методы
В данном исследовании для моделирования процессов на рынке недвижимости использовалась аналитическая платформа визуальной разработки сценариев KNIME.
Для анализа рынка недвижимости в г. Саранске использованы данные, собранные с крупнейшего в России ресурса объявлений о продаже и аренде жилой, загородной и коммерческой недвижимости – сервиса ЦИАН. Сбор данных осуществлялся средствами Python библиотеки Cianparser[3]. В результате получены данные о 1 530 объектах недвижимости, включая квартиры, которые были выставлены на продажу на платформе по состоянию на 1 июня 2024 г. Признаки объектов недвижимости, используемые в анализе, представлены на рисунке 1.
Рис. 1. Признаки, получаемые в ходе сбора данных
Fig. 1. Features obtained during data collection
Источник: составлен авторами на основе данных сервиса ЦИАН.
Sources: compiled by the authors based on data from the CIAN service.
Для определения географических координат объектов недвижимости использован API сайта openstreetmap.org[4]. Из 1 530 собранных объявлений координаты удалось извлечь для 1 455 объектов.
Моделирование в KNIME Analytics Platform. На рисунках 2, 3 представлены рабочие процессы KNIME, осуществляющие прогноз цен на недвижимость по заданным параметрам с помощью линейной и полиномиальной регрессии.
Независимыми переменными, в силу отсутствия попарной корреляции и большей практической значимости, здесь выбраны этаж, общее количество этажей здания, количество комнат, площадь. Зависимой переменной – цена. На рисунках 3, 4 приведены оценки моделей, на основании которых можно сделать вывод об удовлетворительном результате моделирования.
Рис. 2. Процесс моделирования линейной регрессии
Fig. 2. The linear regression modeling process
Источник: рисунки 2–7, 9–13 составлены авторами.
Sources: figures 2–7, 9–13 are compiled by the authors.
Рис. 3. Процесс моделирования полиномиальной регрессии
Fig. 3. Polynomial regression modeling process
Рис. 4. Оценки линейной регрессии
Fig. 4. Linear regression estimates
Рис. 5. Оценки полимерной регрессии
Fig. 5. Polynomial regression estimates
Результаты исследования
В рабочий процесс KNIME импортирован узел Table Creator, который позволяет вводить параметры объекта (независимые переменные) и получать прогноз, чтобы использовать полученные модели для прогнозирования цен. Конфигурация узла содержит столбцы, тип данных, названия которых совпадают с параметрами объекта недвижимости (рис. 6).
Для тестирования работоспособности модели вводились данные реальных объектов, затем результаты сравнивались. Например, при вводе данных объекта, расположенного по адресу г. о. Саранск, ул. Веселовского, д. 26, цена по объявлению на сервисе ЦИАН составляла 3 500 000 руб., а прогнозируемая цена по полиномиальной регрессии 3 616 320 677 руб., что, с некоторой погрешностью, соответствует рыночным ожиданиям (рис. 7).
Кроме этого, сравнивался подобный функционал прогнозирования цен на недвижимость известных сервисов. Например, сервис «Яндекс.Недвижимость» возможности прогнозирования цен не представляет, а оценка вышеупомянутой квартиры на сервисе ЦИАН совпала с данными моделирования в KNIME (рис. 8).
Рис. 6. Конфигурация узла Table Creator
Fig. 6. Table Creator node configuration
Рис. 7. Работа узла Table Creator
Fig. 7. Operation of the Table Creator node
Рис. 8. Сервис оценки невидимости ЦИАН
Fig. 8. CIAN invisibility assessment service
Источник: сервис ЦИАН.
Sources: CIAN service.
Методы снижения размерности и кластеризации данных. Визуализация данных также является весьма эффективной при анализе рынка недвижимости. Визуализацию можно выполнить последовательно, применив один из методов снижения размерности признакового пространства, а затем выполнив кластеризацию. Данные методы реализованы в KNIME.
Рабочий процесс визуализации данных недвижимости представлен на рисунке 9. После чтения и нормализации данных был применен метод главных компонент, а затем проведена кластеризация методом k-средних. Количество кластеров (k = 3) получено путем применения метода силуэтов (рис. 10).
Рис. 9. Рабочий процесс визуализации данных
Fig. 9. Data visualization workflow
Рис. 10. Оценка кластеризации методом силуэтов
Fig. 10. Evaluation of clustering using the silhouette method
Визуализация осуществлялась в том числе с помощью узла OSM Map View, который предоставляет интерактивный доступ к картам OpenStreetMap (openstreetmap.org). Кластеры на карте openstreetmap окрашены разными цветами и представлены на рисунке 11.
Рис. 11. Кластеры на карте openstreetmap
Fig. 11. Clusters on the openstreetmap
В ходе анализа результатов визуализации выявлено, что, например, квартиры в районах Светотехстрой и Юго-Запад чаще объединяются в один кластер в пределах одного жилого массива (несколько домов находящихся рядом, образующих «колодец», в непосредственной близости от школы, детского сада, магазина). Кластеры района Светотехстрой представлены на рисунке 12, кластеры района Юго-Запад – на рисунке 13. Результаты кластеризации коррелируют с визуальной оценкой интерьера квартир из разных кластеров.
Рис. 12. Кластеры района Светотехстрой
Fig. 12. Clusters of the Svetotechstroy district
Рис. 13. Кластеры района Юго-Запад
Fig. 13. Clusters of the South-West district
Обсуждение и заключение
Одним из основных преимуществ использования KNIME Analytics Platform является то, что это low-code инструмент, который позволяет пользователю минимизировать программный код, осуществляя построение моделей с помощью визуальных интерфейсов и готовых модулей. Именно low-code подход позволяет быстро создавать и изменять модели рынка недвижимости и может быть интересен специалистам, объектом исследования которых является рынок недвижимости.
В данной статье продемонстрировано применение KNIME Analytics Platform для моделирования процессов рынка недвижимости; построены рабочие процессы, реализующие линейную и полиномиальную модели регрессии прогноза цены объекта недвижимости по нескольким параметрам; проведено сравнение работы построенных моделей с данными сервисов ЦИАН и «Яндекс.Недвижимость»; выполнена визуализация кластерного анализа объектов недвижимости на карте OpenStreetMap.
Однако следует отметить, что проведенное исследование имеет определенные ограничения. Во-первых, не были учтены макроэкономические факторы, такие как инфляция и ставки кредитования, которые могут существенно влиять на рынок недвижимости. Во-вторых, данные были ограничены одним городом и конкретным периодом, что актуализирует необходимость дальнейших исследований для более полного и всестороннего анализа рынка недвижимости.
Дополнительная информация
Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.
Заявленный вклад авторов: Д. К. Егорова – разработка концепции; написание рукописи – рецензирование и редактирование. Р. В. Денисов – проведение исследования; разработка программного обеспечения; написание черновика рукописи.
[1] KNIME Analytics Platform [Электронный ресурс]. URL: https://www.knime.com (дата обращения: 01.02.2025).
[2] Гурьева Т. Н. Возможности аналитической платформы KNIME // Государство и бизнес. Современные тенденции и проблемы развития экономики : материалы XIII Междунар. науч.-практ. конф. (21–22 апреля 2021 г., г. Санкт-Петербург). СПб. : Северо-Западный институт управления – филиал РАНХиГС, 2021. С. 191–199.
[3] Parser information from Cian website [Электронный ресурс]. URL: https://pypi.org/project/cianparser (дата обращения: 01.02.2025).
[4] Welcome to GeoPy’s documentation [Электронный ресурс]. URL: https://geopy.readthedocs.io/en/stable (дата обращения: 28.01.2025).
About the authors
Daria K. Egorova
National Research Mordovia State University
Email: egorovadk@mail.ru
ORCID iD: 0000-0002-3392-6761
SPIN-code: 9427-8154
Cand.Sci. (Phys.-Math.), Associate Professor of the Department of Applied Mathematics
Russian Federation, 68 Bolshevistskaya St., Saransk 430005Roman V. Denisov
National Research Mordovia State University
Author for correspondence.
Email: ar4yp@yandex.ru
ORCID iD: 0009-0001-9652-0996
Master’s Student of the Faculty of Mathematics and Information Technology
Russian Federation, 68 Bolshevistskaya St., Saransk 430005References
- Egorova D.K., Zavarukhina Y.V. Application of KNIME Analytics Platform Tools to Analyze the Compliance of Syllabuses with the Requirements of Employers. Ogarev-online. 2023;11(16). (In Russ., abstract in Eng.) Available at: https://cyberleninka.ru/article/n/primenenie-instrumentariya-knime-analytics-platform-dlya-analiza-sootvetstviya-rabochih-programm-uchebnyh-distsiplin-trebovaniyam (accessed 20.02.2025).
- Savina O.V., Malikov V.P., Sadovnikova N. P., Parygin D.S., Mityagin S.A., Voronin D.Yu. Forecasting the Value of Real on the Basis of a Comprehensive Analysis of its Properties. Caspian Journal: Control and High Technologies. 2019;(4):60–70. (In Russ., abstract in Eng.) https://doi.org/10.21672/2074-1707.2019.48.4.060-070
- Derkachenko V.N. Prognostication and the Cluster Analysis of the Development of the Regional Market for Habitable Real Estate. Cientific and Methodological Electronic Journal “Koncept”. 2014;20:11–15. (In Russ., abstract in Eng.) Available at: http://e-koncept.ru/2014/54262.htm (accessed 20.02.2025).
- Zuev M.A., Shibaev V.M., Balanev K.S. Development of the K-Means Model to Identify the Most Profitable Offers on the Moscow Real Estate Market. Informatics. Economics. Management. 2024;3(2):212–218. (In Russ., abstract in Eng.) https://doi.org/10.47813/2782-5280-2024-3-2-0212-0218
- Sternik G.M. Forecasting Techniques in Housing Prices Depending on the Type Market. Property Relations in the Russian Federation. 2011;(1):43–47. (In Russ., abstract in Eng.) EDN: NCCIRR
- Omarova Sh.E., Medeubayeva A.M. Comparative Analysis of Data Mining Tools. Zametki uchenogo. 2020;(11):185–193 (In Russ., abstract in Eng.) EDN QYUTBN
- Palmov S.V., Diyazitdinova A.A., Artyushkina E.S. Comparative Analysis of the Intelligent Systems Capabilities in Hidden Patterns Extracting. Electrosvyaz. 2020;(2):52–58. (In Russ., abstract in Eng.) https://doi.org/10.34832/ELSV.2020.3.2.008
- Smirnova E.M., Valinurova A.A., Danilova S.V., Valinurov T.R. Development of an Approach to Clustering of Districts Based on the KNIME Machine Learning Tool. Ivecofin. 2021;(4):165–175. (In Russ., abstract in Eng.) Available at: https://ecofin-isuct.ru/article/view/4079 (accessed 20.02.2025).
Supplementary files
