Determining the optimal number of clusters when identifying neighborhood models

Irina A. Sedykh; Седых Ирина Александровна; Kirill N. Makarov; Макаров Кирилл Николаевич

doi:10.36622/1729-6501.2025.21.4.010

Determining the optimal number of clusters when identifying neighborhood models

Authors: Sedykh I.A.¹, Makarov K.N.¹
Affiliations:
1. Lipetsk State Technical University
Issue: Vol 21, No 4 (2025): Bulletin of Voronezh State Technical University
Pages: 64-71
Section: Informatics, computer engineering and control
URL: https://ogarev-online.ru/1729-6501/article/view/358344
DOI: https://doi.org/10.36622/1729-6501.2025.21.4.010
ID: 358344

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

In this paper, we consider a special case of an input-output neighborhood model with one node, two inputs, and one output. Identification and testing of the quadratic model was performed on synthetic data. The input data was generated according to the law of uniform distribution. For this model, the analysis of the influence of the choice of the number of clusters on the results of identification and forecasting is carried out. The well–known fuzzy clustering method, fuzzy C-means, was chosen for the study. To determine the optimal number of clusters, several methods for assessing the quality of fuzzy clustering have been considered, namely: the Xie-Beni, Kwon, and Tang-Sun-Sun minimization indices, which consider intracluster similarity, and the Fuzzy Simplified Silhouette maximization index, which considers intercluster difference. To compare the effect of the number of clusters on the results of identification and prediction of the neighborhood model, the identification parameters were determined before and after fuzzy clustering for a different number of clusters. Graphs of the outputs of the test sample and outputs obtained from the model, without clustering and with a different number of clusters, as well as graphs of forecast errors before and after clustering are presented. A program in the Python programming language was implemented to perform the calculations.

Keywords

cluster analysis, fuzzy clustering, fuzzy C-means algorithm, Xie-Beni index, Fuzzy Simplified Silhouette Index, Kwon index, Tang-Sun-Sun index, identification, neighborhood model

Full Text

Введение

Окрестностный подход является развитием теории математического моделирования дискретных распределенных систем. Разработаны методы их параметрической идентификации и смешанного управления. При этом входы, состояния и выходы, а также параметры моделей могут быть как действительными, так и комплексными числами [1].

В работе проводится нечеткая кластеризация окрестностной модели. Кластерный анализ позволяет объединять объекты в кластеры на основе схожести некоторых признаков, свойственных каждому объекту какого-либо множества [2]. Объединение происходит с помощью вычисления расстояния между этими объектами [3]. Нечеткие методы кластеризации позволяют одному и тому же объекту принадлежать одновременно нескольким (или даже всем) кластерам, но с различной степенью принадлежности.

Для оценки качества и компактности кластеров используются четыре индекса качества кластеризации: индексы Xie-Beni, Fuzzy Simplified Silhouette, Kwon, Tang-Sun-Sun [4-5].

В работе выполняется исследование влияния выбора оптимального количества кластеров на результаты идентификации и прогноза, полученного по модели. Проводится оценка кластеризации для разного количества кластеров, идентификация модели до и после кластеризации.

Все расчеты были выполнены в программе, реализованной на языке программирования Python.

Исходные данные

Рассмотрим окрестностную модель (ОМ) вида «вход-выход», которую можно описать как где:

– это структура окрестностной модели, где – множество узлов, – множество окрестностных связей;

– векторы входов и выходов ОМ в текущий момент времени;

− функция пересчета выходов.

Общий вид функции для узла окрестностной модели описывается формулой:

где – количество окрестностных связей по выходам, – количество окрестностных связей по входам для узла , .

Общий вид системы представлен формулой:

В работе рассматривается квадратичная окрестностная модель с одним узлом (рис. 1).

Рис. 1. Окрестностная модель

Частный случай системы (2) общего вида для рассматриваемой модели представлен формулой:

В квадратичном случае формула (3) имеет вид:

где – параметры модели.

Исследование проводилось на синтетических данных. Объем выборки составляет 10000 строк, фрагмент выборки представлен в табл. 1. Входные данные ( ) распределены равномерно, а выходные данные вычислялись по формуле

Таблица 1. Фрагмент выборки исходных данных


0,598	9,292	3,568
3,092	4,317	0,516
1,839	7,348	8,554
3,235	4,906	0,560
2,545	5,088	2,727
5,179	8,268	7,818
8,311	2,487	3,686
2,145	8,680	7,115
6,795	1,304	0,777
…

Данные были разделены на обучающую и тестовую выборки, в отношении 80 % на 20 % соответственно.

Определение оптимального количества кластеров

В работе использовался один из наиболее известных методов кластеризации – метод нечетких C-средних [6]. К недостаткам метода можно отнести необходимость задания количества кластеров . На практике не всегда известно, на какое оптимальное количество кластеров нужно разделить данные [7]. Задание неправильного может привести к перекрывающим кластерам или к случаю, когда точки слишком удалены от центров кластеров [8-10]. Часто используемым подходом к выбору оптимального является перебор различного количества кластеров и последующий выбор конкретного количества, которое обеспечивает наилучший результат в соответствии с определенным критерием качества.

В статье рассмотрены четыре индекса оценки качества кластеризации: Xie-Beni, Fuzzy Simplified Silhouette, Kwon, Tang-Sun-Sun.

В индексе Xie-Beni компактность и обособленность кластеров измеряются с использованием внутрикластерных отклонений и межкластерного расстояния [11]:

Меньшие значения индекса указывают на компактные и хорошо разделенные кластеры [12].

Значение силуэта является мерой того, насколько объект похож на свой собственный кластер по сравнению с другими кластерами. Индекс силуэта анализирует расстояния от каждой точки данных до ее собственного кластера и ближайшего соседнего кластера:

где — расстояние между объектом и ближайшим кластером-прототипом , к которому принадлежит наибольшей степенью принадлежности, а — расстояние между объектом и вторым ближайшим кластером-прототипом.

Индекс Fuzzy Simplified Silhouette представляет собой нечеткую версию упрощенного силуэта [13]:

где и — первый и второй по величине элементы i-ой строки матрицы нечеткого разбиения, соответственно,

— весовой коэффициент, определяемый пользователем.

Чем больше значение индекса, тем более четко выделены кластеры, и они представляют собой компактные, плотно сгруппированные облака точек.

Индекс Kwon представляет собой модификацию Xie-Beni и определяется как [14]:

где

Аналогично индексу Kwon, индекс Tang-Sun-Sun является модификацией индекса Xie-Beni [15]:

где — это показатель минимизации.

В работе проводилась оценка качества кластеризации для разного количества кластеров от двух до десяти. В табл. 2 представлены результаты.

Таблица 2. Результаты оценки качества кластеризации

Кол-во кластеров	Xie-Beni	Fuzzy Simplified Silhouette	Kwon	Tang-Sun-Sun
2	*0,276*	*0,577*	*2767,073*	*2701,334*
3	0,119	0,623	1196,173	1180,915
4	0,083	0,646	829,503	820,234
5	0,145	0,610	1454,343	1425,661
6	0,107	0,634	1071,278	1054,032
7	0,118	0,630	1191,861	1169,682
8	0,085	0,632	861,326	847,827
9	0,074	0,641	741,679	730,504
10	0,102	0,637	1029,890	1009,102

Как видно из табл. 2, в случае девяти кластеров получены оптимальные значения для индексов минимизации, то есть получаются компактные и хорошо разделенные кластеры. Самый неудовлетворительный результат получен при двух кластерах. В случае с индексом Fuzzy Simplified Silhouette наилучший результат получен при разделении выборки на четыре кластера.

Сравнение результатов кластеризации

По обучающей выборке найдены центры кластеров, на основании которых выполнена кластеризация тестовой выборки. Для сравнительного анализа в работе количество кластеров выбрано на основе оценки качества кластеризации: наилучшее по индексам минимизации (девять), наихудшее (два) и наилучшее по индексу максимизации (четыре). В табл. 3 показаны центры кластеров, полученные при разбиении выборки на кластеры.

Таблица 3. Центры кластеров

Количество кластеров
2		4		9
3,163	3,600	2,568	7,514	4,955
6,870	6,304	7,590	7,595	8,483	8,473
		2,396	2,451	1,685	8,296
		7,533	2,492	5,134	8,482
				8,457	1,714
				5,217	1,616
				1,676	4,563
				1,634	1,395
				8,338	4,955

На рис. 2-4 представлены результаты кластеризации тестовой выборки с разным количеством кластеров.

Рис. 2. Результаты кластеризации с

Рис. 3. Результаты кластеризации с

Рис. 4. Результаты кластеризации с

Идентификация окрестностной модели

Идентификация объектов – это построение оптимальных математических моделей по реализациям их входных и выходных данных. В конечном итоге задача сводится к оценке степени идентичности модели реальному объекту.

В работе рассматривается квадратичная окрестностная модель (4). Для ее идентификации необходимо для узла решить переопределенную систему линейных уравнений: где

– объем выборки.

Матрицу параметров находим по формуле

где – псевдообратная матрица .

Для поиска ошибок идентификации необходимо получить модельные значения функции пересчета состояния по формуле (7) для найденных параметров и сравнить с исходными данным Для нахождения среднеквадратичной ошибки (MSE) используется формула (8).

В работе проводилась идентификация до и после кластеризации. По обучающей выборке находились параметры модели и на основе них был выполнен прогноз для тестовой выборки и рассчитаны ошибки прогноза.

В табл. 4 приведены ошибки прогноза до и после кластеризации при разном количестве кластеров.

Таблица 4. Ошибки прогноза

Наименование ошибки	До кластеризации	После кластеризации
Наименование ошибки	До кластеризации	2 кластера	4 кластера	9 кластеров
MSE	6,661	6,346	5,881	2,308

Ниже представлены графики значений и для тестовой выборки до и после кластеризации (рис. 5-8), а также графики ошибок прогноза до и после кластеризации (рис. 9).

Рис. 5. График и для тестовой выборки до кластеризации

Рис. 6. График и для тестовой выборки при двух кластерах

Рис. 7. График и для тестовой выборки при четырех кластерах

Рис. 8. График и для тестовой выборки при девяти кластерах

Рис. 9. График MSE прогноза при разном количестве кластеров

Из рис. 5-9 видно, что для рассматриваемой выборки оптимальным является четыре кластера, что и было получено в результате исследования качества кластеризации по индексу Fuzzy Simplified Silhouette. Ошибка MSE прогноза при этом составила 5,881. Время выполнения расчетов 28,04 секунды.

Конечно, можно выбрать для построения модели и девять кластеров, как показывают индексы минимизации. При этом ошибка MSE прогноза уменьшается приблизительно в 2,5 раза и составила 2,308, что является существенным в некоторых исследованиях. Однако разбиение на большее количество кластеров требует дополнительных вычислительных и временных ресурсов. Здесь время выполнения расчетов составило 285,38 секунд. Поэтому при определении оптимального количества кластеров при решении задачи идентификации следует учитывать допустимую точность прогноза и времени вычислений.

Заключение

В исследовании с помощью методов оценки качества нечеткой кластеризации на основе нечетких C-средних и в результате идентификации окрестностной модели на кластеризованных данных определено оптимальное количество кластеров для рассматриваемой выборки.

Идентификация данных с нечеткой кластеризацией может быть использована в задачах, где требуется нечеткое распознавание, гибкая классификация с учетом неопределенности данных и анализа сложных, перекрывающихся шаблонов. Одной из областей применения является биометрия и безопасность, в частности, распознавание лиц с нечеткими признаками.

___________________________

About the authors

Irina A. Sedykh

Lipetsk State Technical University

Author for correspondence.
Email: kirik0-1@yandex.ru
ORCID iD: 0000-0003-0012-8103

Dr. Sc. (Technical), Associate Professor

Russian Federation, 30 Moskovskaya St., Lipetsk, 398055, Russia

Kirill N. Makarov

Lipetsk State Technical University

Email: kirik0-1@yandex.ru
ORCID iD: 0009-0008-9556-7910

graduate student

Russian Federation, 30 Moskovskaya St., Lipetsk, 398055, Russia

References

Sedykh I.A., Makarov K.N. “Identification of quadratic complex-valued dynamic neighborhood models on clustered data and without clustering”, Management of Large Systems (Upravleniye bol'shimi sistemami), issue 111, Moscow: IPU RAS, 2024. pp. 66-80.
Sedykh I.A., Makarov K.N. “Fuzzy clustering of complex-valued data”, News of Educational Institutions of the Chernozem Region (Vesti uchebnykh zavedeniy Chernozem'ya), 2023, vol. 19, no. 2 (72), pp. 46-57.
Sedykh I.A., Makarov K.N. “Clusterization of complex data by the k-means method”, Bulletin of Lipetsk State Technical University (Vestnik Lipetskogo gosudarstvennogo tekhnicheskogo universiteta), 2022, no. 2 (48), pp. 5-11.
Vendramin L., Naldi M.C., Campello R.J.G.B. “Fuzzy clustering algorithms and validity indices for distributed data”, Partitional Clustering Algorithms, Springer, Cham, 2015, available at: https://doi.org/10.1007/978-3-319-09259-1_5.
Xie X.J., Wang Y., Zhong L. “A new fuzzy clustering validity index with strong robustness”, Fuzzy Information & Engineering and Operations Research & Management. Advances in Intelligent Systems and Computing, 2014, vol. 211, Springer, Berlin, Heidelberg, available at: https://doi.org/10.1007/978-3-642-38667-1_31.
Kenger O.N., Cebi S., Cevik Onar S., Oztaysi B., Tolga A.C., Sari I.U., Ozceylan E. “A comparative analysis of fuzzy C-means, K-means, and K-medoids clustering algorithms for analysis countries’ COVID-19 risk”, Intelligent and Fuzzy Techniques for Emerging Conditions and Digital Transformation, INFUS 2021. Lecture Notes in Networks and Systems, 2022, vol. 307, Springer, Cham, 2022, available at: https://doi.org/10.1007/978-3-030-85626-7_4.
Liu Xy., Fan Jc., Chen Zw. “Improved fuzzy C-means algorithm based on density peak”, Int. J. Mach. Learn. & Cyber., 2020, vol. 11, pp. 545–552, available at: https://doi.org/10.1007/s13042-019-00993-8.
Sardar T.H., Ansari Z. “MapReduce-based fuzzy C-means algorithm for distributed document clustering”, J. Inst. Eng. India Ser. B., 2022, vol. 103, pp. 131–142, available at: https://doi.org/10.1007/s40031-021-00651-0.
Xu D., Tian Y. “A comprehensive survey of clustering algorithms”, Ann. Data. Sci., 2015, vol. 2, pp. 165–193, available at: https://doi.org/10.1007/s40745-015-0040-1.
Abasi A.K., Khader A.T., Al-Betar M.A. et al. “A novel hybrid multi-verse optimizer with K-means for text documents clustering”, Neural Comput & Applic., 2020, vol. 32, pp. 17703–17729, available at: https://doi.org/10.1007/s00521-020-04945-0.
Muranishi M., Honda K., Notsu A. “Xie-Beni-Type fuzzy cluster validation in fuzzy co-clustering of documents and keywords”, Soft Computing in Artificial Intelligence, Advances in Intelligent Systems and Computing, 2014, vol. 270, Springer, Cham, available at: https://doi.org/10.1007/978-3-319-05515-2_4.
Br Sitepu K.A., Sitompul O.S., Situmorang Z. "Analysis of fuzzy C-means and analytical hierarchy process (AHP) models using Xie-Beni index", 2019 International Conference of Computer Science and Information Technology (ICoSNIKOM), pp.1-6, 2019.
Starczewski A., Przybyszewski K. “Improvement of the simplified silhouette validity index”, Artificial Intelligence and Soft Computing, ICAISC 2018. Lecture Notes in Computer Science, 2018, vol. 10842, Springer, Cham, available at: https://doi.org/10.1007/978-3-319-91262-2_39.
Kwon S.H., Kim J., Son S.H. “Improved cluster validity index for fuzzy clustering,” Electronics Letters, 2021, vol. 57, no. 21, pp. 792–794.
Rustam, Gunawan A.Y., Kresnowati M.T.A.P. “Data dimensionality reduction technique for clustering problem of metabolomics data”, Heliyon, 2022, vol. 8, no.6, art. e09715.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register