Formalization of the Problem and Development of an Algorithm for Selecting a Data Normalization Method for Decision Making Support

Cover Page

Cite item

Full Text

Abstract

One of the key problems of decision-making is the choice of an appropriate method of data normalization, which ensures their comparability and the possibility of subsequent analysis. The formalization of the problem and the development of an algorithm for selecting a data normalization method for decision making are considered. The implementation of the proposed approach to choosing a data normalization method is demonstrated using the example of a decision-making problem to determine the best parameters for the galvanic process of applying zinc coating. The found solution confirms the receipt of reliable and reliable results using the selected normalization methods according to the proposed approach.

Full Text

Введение

Принятие решений – важнейший процесс в различных сферах человеческой деятельности – от технологического обслуживания токарных станков [1], проектирования сети общеобразовательных школ [2], развития сети газовых заправочных станций [3], управления качеством функционирования структурных элементов в организационно-технических системах [4] до производства катализаторов для синтеза углеродных нанотрубок [5]. Для повышения эффективности результатов принятия решений необходимо постоянное исследование вопросов, возникающих при реализации данного процесса, в целях их преодоления.

Одной из ключевых проблем в процессе принятия решений является выбор подходящего метода нормализации данных. Нормализация используется для преобразования данных в стандартный формат для устранения шумов и разнородности размерностей, что обеспечивает сопоставимость данных и возможность их последующего анализа. Для ее реализации применяются такие методы, как линейная нормализация по Вейтендорфу, векторная, логарифмическая и пр. [6] Матрица решений, полученная после применения различных методов нормализации, расчетные формулы которых отличаются, будет оказывать первостепенное влияние на результат принятого решения.

В ряде работ проведены исследования по применению методов нормализации данных. Так, например, в работе [7] приводится анализ влияния линейной нормализации по Вейтендорфу на решение многокритериальных экономических задач при помощи максиминных критериев, в ходе которого установлена невозможность использования данного метода из-за неустойчивости к изменениям ограничений. Применение метода нормализации, обеспечивающего представление гиперпространства частных критериев близким к единичному гиперкубу, описывается в работе [8]. Выбор метода нормализации путем оценки значения функции расстояния между данными рассматривается в работе [9]. Использование метода нормализации, который обеспечивает данным равную важность с точки зрения их изменчивости, предлагается в работе [10]. Однако отсутствует формализованный единый подход к выбору метода нормализации не только от имеющихся данных в матрице решений, но и от применяемого метода выбора лучшей альтернативы (решения задачи многокритериальной оптимизации), что обуславливает актуальность приведенного исследования.

Цель работы – формализация задачи и разработка алгоритма выбора метода нормализации данных для принятия решений.

Формализация задачи выбора метода нормализации данных

Для формализации задачи выбора метода нормализации данных воспользуемся методологией IDEF0, позволяющей привести системно-структурное описание данного процесса [11]. Вначале при помощи методологии IDEF0 рассмотрим сам процесс принятия решений, декомпозиция контекстной диаграммы которого показана на рис. 1.

 

Рис. 1. Декомпозиция контекстной IDEF0-диаграммы процесса принятия решений

 

В таком случае процесс принятия решений предполагает три основных процесса: A1 – нормализация данных; А2 – расчет весовых коэффициентов значимости критериев; А3 – выбор лучшей альтернативы. Механизмом для всех процессов A1 – A3 является лицо, принимающее решение. Процесс ограничен методами принятия решений, которые можно разделить на три категории: методы нормализации (для А1), методы расчета весовых коэффициентов значимости критериев (для А2) и методы выбора лучшей альтернативы (для А3).

Входная информация для процесса А1 включает в себя матрицу решения и типы критериев, в то время как выходной информацией является нормализованная матрица решений. Для процесса А2 входная информация – нормализованная матрица решений и типы критериев, а выходная – весовые коэффициенты значимости критериев. Для процесса А3 входная информация содержит нормализованную матрицу решений, типы критериев и весовые коэффициенты значимости критериев, а в качестве выходной информации выступает лучшая альтернатива.

Процесс начинается с того, что лицо, принимающее решение, предоставляет матрицу решений, содержащую все возможные альтернативы и их оценки по каждому критерию. Затем в данных путем применения различных методов нормализации устраняется несоответствие в размерностях. После этого определяются весовые коэффициенты значимости критериев с помощью различных методов расчета. Наконец, при наличии нормализованных данных и весовых коэффициентов значимости критериев, лицо, принимающее решение, может использовать различные методы для выбора лучшей альтернативы. Выбранной лучшей альтернативой является та, которая имеет наивысший общий балл, рассчитывающийся, как правило, путем объединения нормализованных оценок по каждому критерию с их соответствующими весовыми коэффициентами значимости.

Для описания предлагаемой реализации процесса А1 воспользуемся его декомпозицией. На рисунке 2 показана декомпозиция диаграммы процесса нормализации данных по методологии IDEF0.

 

Рис. 2. Декомпозиция IDEF0-диаграммы процесса нормализации данных

 

Процесс А1 состоит из пяти подпроцессов: А1.1 – создание матрицы с вариантами значений весовых коэффициентов значимости критериев; А1.2 – нормализация данных; А1.3 – расчет матриц лучших альтернатив и частот их появления; А1.4 – расчет весовых коэффициентов значимости методов нормализации данных; А1.5 – выбор метода нормализации данных. Общей выходной информацией для всех подпроцессов А1.1 – А1.5 является длительность расчета.

Подпроцесс А1.1 основывается на начальных значениях весовых коэффициентов значимости критериев, а выходной информацией выступает матрица с вариантами весов. Комбинаторные алгоритмы используются в качестве механизма для данного подпроцесса.

Подпроцесс А1.2 принимает в качестве входной информации матрицу решений с типами критериев и формирует нормализованные матрицы решений, полученные при помощи методов нормализации, являющихся механизмом.

Подпроцесс А1.3 использует нормализованные матрицы решений, матрицу с вариантами весовых коэффициентов значимости критериев и типы критериев для расчета матриц лучших альтернатив и частот их появления. Механизмом являются методы выбора лучшей альтернативы.

Подпроцесса А1.4 на основе матрицы частот появления лучших альтернатив (входная информация) формирует весовые коэффициенты значимости методов нормализации данных (выходная информация).

Весовые коэффициенты значимости методов нормализации данных, нормализованные матрицы решений и точность расчета используются подпроцессом А1.5 в качестве входной информации для выбора метода нормализации данных. Его выходная информация содержит выбранный метод нормализации, достигнутую точность и количество итераций, а также нормализованную матрицу решений. В случае недостижения точности расчета информация о неудовлетворительном результате используются в качестве входной информации у подпроцесса А1.1 для создания новой матрицы с вариантами весовых коэффициентов значимости критериев, тем самым организуя обратную связь по входу.

Разработка алгоритма выбора метода нормализации данных

Сформулируем математическую постановку данной задачи следующим образом: для заданной матрицы решений S необходимо использовать такой метод нормализации Mt* и ему соответствующую матрицу решений S¯t*=Mt*S, которые для метода выбора лучшей альтернативы G(S¯t*, ω) обеспечивают получение наиболее часто встречаемой лучшей альтернативы при различных B сочетаниях значений весовых коэффициентов значимости критериев ω, то есть:

t*=argmaxt=1,...,Tγt=argmaxt=1,...,Tb=1Bνb,tb=1Bt=1Tνb,t, (1)

где γt – весовой коэффициент значимости t-го метода нормализации; T – число методов нормализации; νb,t – частота появления лучшей альтернативы при b-м сочетании весовых коэффициентов значимости критериев в t-м методе нормализации.

Рассмотрим алгоритм решения задачи (1). Первым шагом является создание матрицы с B вариантами значений весовых коэффициентов значимости критериев ω. Это делается с помощью комбинаторных алгоритмов, которые позволяют перебрать все возможные комбинации весовых коэффициентов для каждого критерия. Затем происходит нормализация данных S¯t с использованием различных методов Mt. После этого посредством соответствующего метода выбора G(S¯t*, ω) проводится расчет матриц лучших альтернатив и частот их появления νb,t путем подсчета количества раз, когда каждая альтернатива была выбрана как лучшая. Далее происходит расчет весовых коэффициентов значимости методов нормализации данных γt. Такие коэффициенты отражают выбор наиболее часто встречаемой лучшей альтернативы. Таким образом, метод с наибольшим весовым коэффициентом будет считаться наиболее предпочтительным для нормализации данных. Если требуемая точность расчета ε коэффициента значимости метода нормализации не достигнута, то значения весовых коэффициентов значимости критериев ω могут быть изменены и процесс повторяется снова до ее достижения.

Вычислительный эксперимент

Реализацию предлагаемого подхода к выбору метода нормализации данных рассмотрим на примере задачи принятия решения по определению лучших параметров (концентрации веществ в электролите Сi,1, Сi,2, …, температуры ti, кислотности pH, плотности тока ji, длительности процесса Ti) для гальванического процесса среди возможных альтернатив Ai (i = 1, …, m), которые обеспечивают оптимальные значения m критериев качества получаемого покрытия (K1 – толщина, мкм; K2 – микротвердость, кг/мм2; K3 – шероховатости, мкм; K4 – удельное сопротивление, Ом/м; K5 – коэффициент отражения, %; K6 – адгезия, Н/м2; K7 – пористость, см–2; K8 – коррозионная стойкость, %; K9 – износ, г/с). Критерии K1, K2, K5, K6 и K8 имеют тип максимизации, а K3, K4, K7 и K9 – минимизации.

Для гальванического процесса нанесения цинкового покрытия значения альтернатив по критериям из матрицы решений, по которой проводится выбор, показаны на рис. 3.

 

Рис. 3. Значения альтернатив A1А24 по критериям K1K9 (соответственно а – и)

 

Пусть в качестве метода выбора лучшей альтернативы выступает взвешенный аддитивный критерий качества. В таком случае, математическая постановка задачи принятия решений будет звучать следующим образом: выбрать альтернативу Ai*, которая максимизирует взвешенный аддитивный критерий качества:

i*=argmaxi=1,...,mGiSt*,ω=argmaxi=1,...,mj=1n=9ωjK¯i,jt*, (2)

где ωj –весовой коэффициент значимости j-го критерия;  – нормализованное с использованием t*-го метода значение j-го критерия по i-й альтернативе.

Определение весовых коэффициентов значимости критериев ωj в (2) проводится по методу из [12]. Данный метод предполагает формирование матрицы весовых коэффициентов (с использованием количественных подходов), которой сопоставляется матрица рангов (качественный подход). Для получения заданного значения согласованности с помощью матрицы рангов решается задача бинарной оптимизации. Согласованность результатов (найденных ранговых значений весовых коэффициентов) оценивается с помощью коэффициента Кендалла W при заданном уровне значимости a. Расчет весовых коэффициентов значимости критериев ωj выполнялся для согласованности W = 0,9 при заданном уровне значимости a = 0,05 при помощи разработанного программного обеспечения [13].

В качестве методов нормализации значений j-го критерия по i-й альтернативе в (1) использовались [14]: линейный по Вейтендорфу M1; max-линейный M2; линейный по сумме M3; векторный M4; логарифмический M5; min-max-линейный M6; min-max-нелинейный M7; улучшенной точности M8; Завадскаса и Турского M9. Выбор метода нормализации данных по предлагаемому подходу проводился при помощи разработанного программного обеспечения [15]. Расчет коэффициентов значимости γ1 – γ9 для методов M1M9 выполнялся для точности ε = 0,001 при начальных весовых коэффициентах значимости критериев ω от 0 до 1 с шагом 0,2.

Анализ полученных результатов и их обсуждение

Рассчитанные весовые коэффициенты значимости критериев K1K9 показаны на рис. 4, а. Наибольшую значимость (0,193) имеет критерий K4, а наименьшую (0,029) – K6. Данные коэффициенты обладают согласованностью по коэффициенту Кендалла Wрасч = 0,911 при полученном уровне значимости aрасч = 0,005 с расчетной величиной 21,87 критерия χ-квадрат, превышающей табличное значение 15,5. Весовые коэффициенты значимости методов нормализации приведены на рис. 4, б.

 

Рис. 4. Весовые коэффициенты значимости критериев (а) и методов нормализации (б)

 

Наибольшую значимость (0,134) имеют два метода нормализации – M2 и M6. Данные коэффициенты получены на 2-й итерации при весовых коэффициентах значимости критериев от 0 до 1 с шагом 0,05. Для методов M2 и M6 нормализованные матрицы решений (см. рис. 3) показаны на рис. 5.

 

Рис. 5. Нормализованные матрицы решений по методам M2 (а) и M6 (б)

 

Каждый метод нормализации данных оказывает разное воздействие на исходные значения в матрице решений, что приводит к отличающимся нормализованным результатам. Полученные нормализованные матрицы решений с использованием найденных весовых коэффициентов значимости критериев (см. рис. 4) обеспечивают следующие значения взвешенного аддитивного критерия качества G, представленные на рис. 6.

 

Рис. 6. Взвешенный аддитивный критерий качества, рассчитанный с использованием нормализованных матриц решений по методам M2 (а) и M6 (б)

 

Наибольшее значение аддитивного критерия в обоих случаях имеет альтернатива A10, которая предполагает использование для гальванического процесса нанесения цинкового покрытия следующих параметров: концентрации цинка C10,1 = 10 г/л и гидроксида натрия C10,2 = 110 г/л; температура t10 = 25 °С; кислотность pH10 = 4,2; плотность тока j10 = 1 А/дм2; длительность процесса T10 = 60 мин. Таким образом, совпадение лучшей альтернативы свидетельствует о надежности и достоверности применения выбранных методов нормализации (M2 или M6) в контексте решения задачи (2) для имеющейся матрицы решений.

Заключение

Использование выбранных методов нормализации согласно предлагаемому подходу обеспечивает получение надежных и достоверных результатов. Данное обстоятельство способствует совершенствованию методологии принятия решений, обеспечивая систематический отбор и проверку применимости методов нормализации данных, используемых для выбора лучшей альтернативы. В свою очередь, полученные результаты закладывают основу для будущих исследований по применению предлагаемого подхода в целях совершенствования процессов принятия решений, а также подтверждения его обобщаемости и эффективности в различных областях человеческой деятельности.

×

About the authors

D. S. Solovyev

Derzhavin Tambov State University

Author for correspondence.
Email: solovjevdenis@mail.ru

кандидат технических наук, доцент кафедры «Математическое моделирование и информационные технологии»

Russian Federation, Tambov

References

  1. Nemtinov V.A., Bobylev V.Yu., Nemtinova Yu.V., Borisenko A.B. [Information decision making support for technological maintenance of lathes], Transactions of the Tambov State Technical University, 2020, vol. 26, no. 2, pp. 220-229. doi: 10.17277/vestnik.2020.02.pp.220-229 (In Russ., abstract in Eng.)
  2. Mokrozub V.G., Rachkova S.A., Vshivkov F.I. [System analysis of decision support in the design of a secondary school network], Transactions of the Tambov State Technical University, 2020, vol. 26, no. 3, pp. 363-370. doi: 10.17277/vestnik.2020.03.pp.363-370 (In Russ., abstract in Eng.)
  3. Evstifeev A.A. [The system analysis of decision support in the development of a network of gas filling stations], Transactions of the Tambov State Technical University, 2021, vol. 27, no. 2, pp. 203-211. doi: 10.17277/vestnik.2021.02.pp.203-211 (In Russ., abstract in Eng.)
  4. Aleinikova K.A., Mokrozub V.G., Ryzhkov A.P., Diedrich V.E. [Formalization of decision support in quality management of the structural element functioning in the organizational-technical system], Transactions of the Tambov State Technical University, 2022, vol. 28, no. 3, pp. 376-386. doi: 10.17277/vestnik.2022.03.pp.376-386 (In Russ., abstract in Eng.)
  5. Burakova E.A., Tugolukov E.N., Dyachkova T.P. [A decision support system for preparation of a catalyst for the synthesis of carbon nanotubes], Transactions of the Tambov State Technical University, 2023, vol. 29, no. 2, pp. 187-198. doi: doi: 10.17277/vestnik.2023.02.pp.187-198 (In Russ., abstract in Eng.)
  6. Krishnan A.R. Past efforts in determining suitable normalization methods for multi-criteria decision-making: A short survey, Frontiers in Big Data, 2022, vol. 5 (990699), pp. 1-10. doi: 10.3389/fdata.2022.990699
  7. Naumov A.A., Bazhenov R.I. [About instability of normalization criteria method], Sovremennye nauchnye issledovaniya i innovacii [Modern scientific research and innovation], 2014, no. 11-1 (43), pp. 64-68. (In Russ., abstract in Eng.)
  8. Zuga I.M., Khomchenko V.G. [Normalization of space criteria in optimization of process complex facilities layout targets], Omskij nauchnyj vestnik. [Omsk Scientific Bulletin], 2015, no. 1 (137), pp. 199-201. (In Russ.)
  9. Starovoitov V.V., Golub Yu.I. [Data normalization in machine learning], Informatika. [Informatics], 2021, vol. 18, no. 3, pp. 83-96. doi: 10.37661/1816-0301-2021-18-3-83-96 (In Russ., abstract in Eng.)
  10. Bagutdinov R.A., Stepanov M.F. [Methods of integration, reduction of sizes and normalization of processing of heterogeneous and multi-scale data], International Journal of Open Information Technologies, 2021, vol. 9, no. 2, pp. 39-44. (In Russ., abstract in Eng.)
  11. Metodologiya funkcional'nogo modelirovaniya IDEF0. Rukovodyashchij dokument RD IDEF0-2000 [Functional modeling methodology IDEF0. Guidance document RD IDEF0-2000], Moscow: Gosstandart Rossii, 2000, 75 p. (In Russ.)
  12. Solovjev D.S. [The objectification method of the weight coefficients for decision-making in multicriteria problems], Nauchno-tekhnicheskij vestnik informacionnyh tekhnologij, mekhaniki i optiki [Scientific and Technical Journal of Information Technologies, Mechanics and Optics], 2023, vol. 23, no. 1, pp. 161-168. doi: 10.17586/2226-1494-2023-23-1-161-168 (In Russ., abstract in Eng.)
  13. Solovjev D.S., Solovjeva I.A. Opredelenie vesovyh koefficientov s zadannoj soglasovannost'yu v mnogokriterial'nyh zadachah prinyatiya reshenij [Determination of weighting coefficients with a given consistency in multicriteria decision-making problems], Russian Federation, 2022, Certificate of state registration of the computer program No. 2022665895. (In Russ.)
  14. Aytekin A. Comparative Analysis of the Normalization Techniques in the Context of MCDM Problems, Decision Making: Applications in Management and Engineering, 2021, vol. 4 (2), pp. 1-25. doi: 10.31181/dmame210402001a
  15. Solovjev D.S., Saratov D.A., Solovjeva I.A. Ocenka vliyaniya metodov normalizacii kriteriev na rezul'tat zadachi prinyatiya reshenij [Assessing the influence of criteria normalization methods on the result of a decision-making problem], Russian Federation, 2022, Certificate of state registration of the computer program No. 2022682221. (In Russ.)

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Decomposition of the contextual IDEF0 diagram of the decision-making process

Download (150KB)
3. Fig. 2. Decomposition of the IDEF0 diagram of data normalisation process

Download (294KB)
4. Fig. 3. Values of alternatives A1 - A24 according to criteria K1 - K9 (a - i, respectively)

Download (304KB)
5. Fig. 4. Weighting coefficients of significance of criteria (a) and normalisation methods (b)

Download (50KB)
6. Fig. 5. Normalised decision matrices by methods M2 (a) and M6 (b)

Download (67KB)
7. Fig. 6. Weighted additive quality criterion calculated using normalised decision matrices using M2 (a) and M6 (b) methods

Download (70KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».