Using mathematical programming models to solve XOR problems

Pavel F. Chernavin; Чернавин Павел Федорович; Nikolai P. Chernavin; Чернавин Николай Павлович; Fedor P. Chernavin; Чернавин Федор Павлович

doi:10.25729/ESI.2024.36.4.002

Using mathematical programming models to solve XOR problems

Authors: Chernavin P.F.¹, Chernavin N.P.¹, Chernavin F.P.¹
Affiliations:
1. Ural federal university
Issue: No 4 (2024)
Pages: 17-25
Section: Methods, technologies and applications of artificial intelligence
URL: https://ogarev-online.ru/2413-0133/article/view/280449
DOI: https://doi.org/10.25729/ESI.2024.36.4.002
ID: 280449

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

The XOR problem is a classic problem in machine learning. Most machine learning methods yield unsatisfactory results when addressing the XOR problem. Attempts to improve the quality metrics of decision rules by transitioning from linear separators to polynomial ones, or by increasing the depth and number of trees, reduce the interpretability of the solution and can lead to overfitting. Therefore, this problem is usually solved using neural networks with the backpropagation method. Currently, there is a significant interest in finding alternatives to the neural network approach for solving classification tasks and the backpropagation method for training neural networks. This article proposes solving the XOR problem based on committee constructions in the form of mathematical programming tasks. Their effectiveness largely depends on the structure of the original data, which can only be understood in the process of solving the problem. Classical committees of unanimity, majority, and seniority only achieve high-quality metrics of the decision rule when the data structure is relatively simple. Therefore, it is proposed to augment the set of committee constructions with an XOR committee. The article presents its geometric interpretation, mathematical model, program listing in IBM ILOG CPLEX package codes, and a comparison with the quality metrics of solutions by other machine learning methods. Translating the process of building committee constructions into mathematical programming tasks provides additional opportunities for controlling the quality of the decision rule during its construction, rather than post facto, as occurs when using programs from standard libraries for machine learning tasks.

Keywords

machine learning, XOR problem, mathematical programming, classification, committee constructions

Full Text

Введение. Проблема XOR (exclusive OR, исключающее ИЛИ) – одна из наиболее важных классических проблем в области машинного обучения (МО). Поэтому ее решению различными способами посвящено большое количество исследований. Впервые эту проблему сформулировал создатель персептрона Фрэнк Розенблатт в 1961 году [1]. Наиболее просто данная проблема воспринимается, когда она сформулирована в геометрическом виде (рисунок 1). Пусть имеется всего 4 точки: две синих и две красных. Необходимо отделить синие точки от красных одной прямой.

Рис.1. Общая геометрическая постановка проблемы XOR

Суть проблемы состоит в следующем. На рисунке 1 множество красных точек одной линией (в общем случае гиперплоскостью) нельзя отделить от синих точек. То есть два множества линейно неразделимы. Несмотря на кажущуюся простоту задачи, многие специалисты по искусственному интеллекту (ИИ) посвятили ей свои исследования [2-13] и их разработки, с одной стороны, способствовали развитию методов машинного обучения (МО), но и приводили к так называемой «зиме ИИ» [2, 5]. Конечно, на практике все выглядит несколько сложнее и каждую точку надо воспринимать, как некоторое подмножество генеральной выборки. Обычно рассматриваются две ситуации. Назовем их простая (рисунок 2) и сложная (рисунок 3).

Рис. 2. Множества с простой структурой

Рис. 3. Множества со сложной структурой

При описании проблемы XOR обычно используется следующая схема: объясняется суть проблемы, показывается неэффективность использования ряда методов МО (логистическая регрессия, метод опорных векторов с полиномиальным ядром, случайный лес деревьев и т.п.), далее говорится, что задача решается достаточно простой нейросетью (НС) и поясняется, как это делается методом обратного распространения ошибки. Конечно, метод обратного распространения ошибки в настоящий момент является лидером среди методов обучения НС, но, как всякий метод, он имеет ряд существенных недостатков. Поэтому даже пионер в области Deep Learning Джеффри Хинтон считает, что надо заниматься поиском альтернатив, и предлагает свой новый метод Forward‑Forward [6].

Альтернативным подходом к решению проблемы XOR может быть применение метода комитетов. Комитетный подход к решению задач классификации был предложен Аблоу С.М. в 1965 году [7, 8]. Большой вклад в развитие данного метода за рубежом был сделан в работах Осборна М. Л [9] и Такиямы Р. А. [10]. В нашей стране наиболее полное развитие метод комитетов получил в научных школах распознавания образов Мазурова В. Д. [11, 12] и Журавлева С. Ю. [13]. Различные комитетные конструкции могут быть представлены в виде задач математического программирования (МП) [14] и решаться с помощью стандартных пакетов для решения таких задач, например, IBM ILOC CPLEX. Данный пакет позволяет за приемлемое время решать задачи МП большой размерности. Сведение процесса построения комитетных конструкций к задачам МП предоставляет дополнительные возможности по управлению качеством решающего правила (РП) в процессе его построения, а не постфактум, как это происходит при использовании программ из стандартных библиотек МО [15].

Традиционно рассматриваются комитеты с логикой единогласия, большинства и старшинства. В статьях Такиямы Р.А. [10] приводится модель комитета с произвольной логикой, но эта модель в конечном итоге сводится только к комитетам единогласия и большинства (КБ). Отметим, что комитет единогласия (КЕ) существует не всегда, но имеет наиболее простую структуру. В работах Мазурова В.Д. [11] доказано, что комитет большинства существует всегда. Так как комитет старшинства (КС) можно построить итерационным способом с отсечением хотя бы одного из элементов множества точек классов на каждой итерации, то он тоже существует всегда. Одним из достоинств комитетных конструкций является то, что каждая из них имеет четкие геометрические интерпретации. Поэтому при использовании метода комитетов можно не только получить решающее правило (РП), но и понять структуру данных, что достаточно важно при решении практических задач. Модели классических комитетных конструкций в виде задач МП и их графические интерпретации приведены в [14], причем каждая из них наиболее эффективна по числу членов комитета и метрикам качества РП только при определенной структуре данных. Например, при структуре, соответствующей рисунку 3, все классические комитеты дадут достаточно посредственный результат. Поэтому возникает закономерный вопрос о существовании комитетов с принципиально другой логикой, позволяющей при минимальном числе членов комитета добиться высоких метрик качества РП. Вопрос существования таких комитетных конструкций является отдельной научной проблемой. Один из вариантов ее решения предлагается в данной статье.

Для решения проблемы XOR с простой структурой данных лучше всего использовать итерационный КС или КЕ [14]. На рисунках 2 и 3 направления голосования (градиенты функций) членов комитета показаны черными стрелками. На рисунке 2 видно, что структура множеств позволяет решить задачу классическими КЕ или КС. При структуре множеств, как на рисунке 3, классический КЕ невозможен, а КБ и КС будут избыточно сложными и не дадут хорошего качества РП. Поэтому необходимо использовать отдельную комитетную конструкцию со следующей логикой:

Для элементов одного из множеств все члены комитета единогласно голосуют либо за, либо против. Это множество далее будем обозначать как $J_{1}$ .
Для элементов другого множества мнение хотя бы одного из членов комитета не совпадает с мнением остальных. Это множество далее будем обозначать как $J_{2} .$

Следует отметить, что при такой логике комитет единогласия является частным случаем XOR-комитета. При построении новой комитетной конструкции сразу следует учитывать, что в практических задачах построение любых комитетов без погрешности встречается довольно редко и скорее всего свидетельствует о переобучении модели. Естественно, что количество невыполнений условий комитета должно быть минимизировано. Новую комитетную конструкцию назовем XOR-комитет и приведем ее математическую модель. Так как любое наблюдение можно представить, как точку в пространстве входных признаков, то в дальнейшем слова “наблюдение” и “точка множества” будем использовать как слова-синонимы.

1. Математическая модель XOR-комитета

Далее будем использовать следующую систему обозначений:

$J_{1}$ и $J_{2}$ – разделяемые множества;

$J$ – множество наблюдений (точек) $J = J_{1} \cup J_{2}$ ;

$M 1$ – мощность множества1 (количество наблюдений, точек);

$M 2$ – мощность множества2 (количество наблюдений, точек) ;

$I$ – множество параметров наблюдений;

$H$ – множество гиперплоскостей (членов комитета, нейронов);

$j, i, h$ – индексы соответствующих множеств;

$P_{i j}$ – входные признаки наблюдений (константы);

$L$ – очень большое число;

$E$ – малое число, используемое для строгости ограничений;

$K$ – количество гиперплоскостей (членов комитета, нейронов) ;

$a_{i}^{h}$ – коэффициенты гиперплоскостей (переменные);

$b^{h}$ – свободные члены гиперплоскостей (переменные);

$v_{j}^{h}, w_{j}^{h} -$ расстояние от $j$ -ой точки до $h$ -ой гиперплоскости (переменные);

$z_{j}^{h} -$ булевы переменные, для фиксации расположения $j$ -ой точки

относительно $h$ -ой гиперплоскости;

$y_{j}$ – булева переменная (y=0 – все члены голосуют за, y=1 – все члены голосуют против);

$d_{j}$ – переменные для коррекции нижних границ комитетной конструкции;

$g_{j}$ – переменные для коррекции верхних границ комитетной конструкции.

Условия разграничения множеств гиперплоскостями могут быть записаны следующим образом:

$\underset{i \in I}{\sum_{}} P_{i j} * a_{i}^{h} + b^{h} + v_{j}^{h} - w_{j}^{h} = 0 h \in H, j \in J$ (1)

$0 \leq v_{j}^{h} \leq L * z_{j}^{h} h \in H, j \in J$ (2)

$0 \leq w_{j}^{h} \leq L * (1 - z_{j}^{h}) h \in H, j \in J$ (3)

Условия (2), (3) запрещают переменным $v_{j}^{h}, w_{j}^{h}$ одновременно быть больше нуля.

Условия для XOR-комитета, c возможностью их корректировки, могут быть записаны следующим образом:

$\underset{h \in H}{\sum_{}} z_{j}^{h} = K * y_{j} - d_{j} + g_{j} j \in J_{1}$ (4)

$d_{j} \leq K j \in J_{1}$ (5)

$g_{j} \leq K j \in J_{1}$ (6)

$1 - d_{j} \leq \underset{h \in H}{\sum_{}} z_{j}^{h} \leq K - 1 + g_{j} j \in J_{2}$ (7)

$d_{j} \leq 1 j \in J_{2}$ (8)

$g_{j} \leq 1 j \in J_{2}$ (9)

Следует отметить, что чисто теоретически без разницы, какое из множеств считать за $J_{1}$ , а другое за $J_{2}$ . На рисунке 2 видно, что для смены множеств местами (в модели) достаточно развернуть градиент одной из гиперплоскостей.

Для корректности систему ограничений для одного из множеств (например, $J_{1})$ необходимо дополнить следующими ограничениями:

$v_{j}^{h} + w_{j}^{h} \geq E h \in H, j \in J_{1}$ (10)

Это ограничение будет запрещать точкам одного из множеств попадать на гиперплоскости.

Целевая функция: $\min \underset{j \in J}{\sum_{}} (d_{j} + g_{j})$ (11)

При использовании целевой функции (11) будет максимизироваться метрика Accuracy (Аккуратность). Данная метрика качества РП хорошо воспринимается практическими специалистами и хорошо работает при сбалансированных классах. В случае сильной несбалансированности классов лучше использовать метрику AUC ROC (площадь под ROC кривой). В этом случае целевая функция будет:

$\min M 2 * \underset{j \in J_{1}}{\sum_{}} (d_{j} + g_{j}) + M 1 * \underset{j \in J_{2}}{\sum_{}} (d_{j} + g_{j})$ (12)

Подробное описание метрик Accuracy и AUC ROC, а также обоснование, что критерии (11), (12) им соответствуют, приведены в [14]. Дополнительные возможности по управлению качеством РП приведены в [15]. На основе данной модели написаны программы в кодах IBM ILOC CPLEX и на языке Python c использованием пакета MIP (Mixed Integer Programming). Программа на Python зарегистрирована в Федеральном институте промышленной собственности [16].

2. Апробирование XOR-комитета на условных примерах. Для условных примеров были использованы данные, приведенные на рисунках 2 и 3. В таблицах 1 и 2 приведены метрики качества РП, полученные классическими методами МО и различных комитетных конструкций.

Таблица 1. Результаты метрик методов МО при простой структуре множеств

Название метода	Accuracy	AUC ROC
Линейное разделение	0.586	0.543
Опорных векторов	0.621	0.591
Логистическая регрессия	0.586	0.484
Ближайших соседей	0.897	0.874
Наивный байес	0.621	0.568
Дерево решений	0.828	0.797
Нейронная сеть из двух нейронов	0.790	0.754
Нейронная сеть из трех нейронов	0.923	0.945
Комитет единогласия из двух членов	0.881	0.885
Комитет единогласия из трех членов	0.881	0.885
Комитет большинства из трех членов	0.706	0.755
Комитет старшинства из двух членов	0.748	0.755
Комитет старшинства из трех членов	0.741	0.759
XOR - комитет из двух членов	0.86	0.836
XOR - комитет из трех членов	0.839	0.834

Таблица 2. Результаты метрик методов МО при сложной структуре множеств

Название метода	Accuracy	AUC ROC
Линейное разделение	0.521	0.41
Опорных векторов	0.479	0.391
Логистическая регрессия	0.396	0.354
Ближайших соседей	0.833	0.796
Наивный байес	0.708	0.362
Дерево решений	0.771	0.834
Нейронная сеть из двух нейронов	0.848	0.911
Нейронная сеть 2 скрытых слоя 6 нейронов	0.954	0.923
Комитет единогласия из двух членов	0.852	0.867
Комитет единогласия из трех членов	0.801	0.827
Комитет большинства из трех членов	0.519	0.64
Комитет старшинства из двух членов	0.464	0.639
Комитет старшинства из трех членов	0.561	0.755
XOR - комитет из двух членов	0.966	0.954
XOR - комитет из трех членов	0.966	0.954

При простой структуре множеств метрики качества решения комитета единогласия из двух членов лучше метрик нейронной сети из двух нейронов в 1 скрытом слое (активатор ReLU). При трех нейронах метрики нейронной сети становятся лучше метрик комитетов единогласия. XOR-комитет показал результаты, сопоставимые с комитетом единогласия, но несколько хуже. Значит, комитет единогласия наиболее подходит для описания структуры множества синих точек на рисунке 2, так как дает наиболее простое и хорошо интерпретируемое решение.

При сложной структуре множеств наилучшие метрики качества показывает XOR-комитет из двух членов. Нейронная сеть сопоставимые результаты показала только при архитектуре в 2 скрытых слоя (в первом слое 4 нейрона, во втором слое 2 нейрона). Все остальные методы имеют метрики качества значительно хуже.

В реальных задачах классификации, в том числе и в проблеме XOR, данные редко имеют простую и линейно разделимую структуру. Сложные структуры данных могут быть вызваны различными факторами: наличием выбросов, смешанными признаками классов, значительными нелинейностями в пространстве признаков, а также самой природой закономерностей в данных. В таких случаях традиционные методы машинного обучения, включая линейные модели, логистическую регрессию, деревья решений и методы опорных векторов, часто демонстрируют недостаточную точность и обобщающую способность.

XOR-комитеты представляют собой один из подходов, способный обеспечить как высокую точность, так и интерпретируемость модели, что делает их полезным инструментом для работы с реальными, сложными данными. Заметим, что по сравнению с нейронной сетью используется более простая архитектура – множество было разделено с аналогичным качеством с использованием 2 гиперплоскостей, что значительно проще для анализа данных, тогда как нейронная сеть потребовала 2 слоя и 6 нейронов, что затрудняет интерпретацию решения.

В задачах, где важна интерпретируемость решений (например, в медицине или финансовом секторе), возможность визуального анализа структуры множества данных и их классификации имеет ключевое значение. XOR-комитеты позволяют построить четкую геометрическую модель, где можно наглядно увидеть влияние каждой гиперплоскости на итоговое решение, что, в свою очередь, помогает лучше понять структуру данных и механизмы классификации. В целом XOR-комитеты могут выступать как альтернативный способ решения задачи классификации и представляют практический интерес для применения в реальных задачах.

Заключение. В данной статье приведена комитетная конструкция с логикой, существенно отличающейся от классических логик единогласия, большинства и старшинства. Естественно, что любой человек не может видеть картину расположения данных в пространствах более трех, но понять их структуру по аналогии с двухмерным пространством возможно на основе методов МО и, особенно, комитетных конструкций. Поэтому при решении конкретной задачи надо применять все доступные методы машинного обучения и сравнивать метрики качества РП, полученных на их основе. При этом надо понимать, что качество решения не сводится только к классическим метрикам Accuracy, Precision, AUC ROC т.п [15]. Обязательно надо учитывать сложность РП и интерпретируемость. Конечно, переход от линейных разделителей к полиномиальным может дать улучшение метрик качества, но увеличит ли это интерпретируемость РП? Аналогично, использование случайного леса с большим количеством деревьев обычно улучшает результат прогноза, но делает его не интерпретируемым. Все эти вопросы наиболее остро встают при сложной структуре исходных данных, поэтому поиск новых методов решения проблемы XOR остается актуальной задачей.

About the authors

Pavel F. Chernavin

Ural federal university

Author for correspondence.
Email: p.f.chernavin@urfu.ru
ORCID iD: 0000-0003-3214-3906
SPIN-code: 6370-8103

Ph.D., associate professor of the department of Big Data analytics and video analysis methods

Russian Federation, Yekaterinburg

Nikolai P. Chernavin

Ural federal university

Email: ch_k@mail.ru
ORCID iD: 0000-0002-2093-9715
SPIN-code: 5722-9436

assistant of the department of Big Data analytics and video analysis methods

Russian Federation, Yekaterinburg

Fedor P. Chernavin

Ural federal university

Email: chernavin_fedor@mail.ru
ORCID iD: 0000-0003-4105-231X
SPIN-code: 9237-5190

Ph.D., associate professor of the department of Big Data analytics and video analysis methods

Russian Federation, Yekaterinburg

References

Frank Rosenblatt Principles of neurodynamics: perceptrons and the theory of brain mechanisms. Spartan books, 1962, p. 616.
Minsky M. Paper S. Perseptronı [Perceptrons]. M.: Mir, 1971. 262 p.
Rumelhart D.E., Hinton G.E., Williams R.J. Learning internal representations by error propagation. In: Parallel distributed processing, Cambridge, MA, MIT Press, 1986, vol. 1, pp. 318–362.
Blum A., Rivest R. Obucheniye trekhuzlovoy neyronnoy seti yavlyayetsya NP-polnym [Training a three-node neural network is NP-complete]. Neyronnyye seti [Neural networks], 1992, no. 5, p. 117-127.
Ahire D.B. Demystifying the XOR problem. Available at: https: dev.to/jbahire/demystifying-the-problem-1blk, (accessed: 02/24/24).
Jeffrey H. The forward-forward algorithm: some preliminary studies. Available at: https://arxiv.org/abs/2212.13345 (accessed: 02/24/24)
Ablow C.M., Kaylor D.J. A Committee solution of the pattern recognition problem. IEEE transactions on information theory IT-11, 1965, vol. 3, pp. 453-455.
Ablow C.M. & Kaylor D.J. Inconsistent homogeneous linear inequalities. Bulletin of the American mathematical society, 1965, vol. 71. no. 5, p. 724.
Osborne M.L. The seniority logic: a logic for a committee machine. IEEE trans. on comp, 1977, vol. C-26, no.12, pp. 1302–1306.
Takiyama R.A. General method for training the committee machine. Pattern recognition, 1978, vol. 10, no. 4, pp. 255–259.
Mazurov V.D., Khachai M.Yu. Komitety sistemy linejnyh neravenstv [Committees of the system of linear inequalities]. Avtomatika i telemekhanika [Automation and telemechanics], 2004, no.2, pp. 43–54.
Mazurov V.D. Ekzistencial'nye voprosy komitetnyh konstrukcij [Existential questions of committee constructions]. Chast' II. Vestnik Yuzhno-Ural'skogo gosudarstvennogo universiteta [Part II. Bulletin of the South Ural state university], 2019, v.19, no.1, pp. 114–120.
Zhuravlev Yu.I., Ryazanov V.V., Senko O.V. Raspoznavaniye. Matematicheskiye metody. Programmnaya sistema. Prakticheskiye primeneniya [Recognition. Mathematical methods. Software system. Practical applications]. M., Phase, 2005,159 p.
Chernavin P.F., Gajnanov D.N., Pankrashchenko V.N. et al. Mashinnoe obuchenie na osnove zadach matematicheskogo programmirovaniya [Machine learning based on mathematical programming problems]. Мoscow, Nauka, 2021, 128 p.
Chernavin P.F., Chernavin N.P., Chernavin F.P. Optimizatsionnyye modeli podbora parametrov tekhnologicheskikh protsessov na osnove rezul'tatov mashinnogo obucheniya [Optimization models for selecting technological process parameters for based on machine learning results]. Informacionnye i matematiceskie tehnologii v nauke i upravlenii [Information and mathematical technologies in science and management], 2023, no. 2(30), pp. 45–56.
Chernavin P.F. Komitet lineynykh razdeliteley dlya dannykh so strukturoy XOR [Line separator committee for data with XOR structure]. Federal'nyy institut promyshlennoy sobstvennosti (FIPS) [Federal Institute of Industrial Property (FIPS)]. No. 2024618484 dated 04/12/2024

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

2. Fig. 1. General geometric formulation of the XOR problem

Download (18KB)

Indexing metadata

3. Fig. 2. Sets with simple structure

Download (96KB)

Indexing metadata

4. Fig. 3. Sets with complex structure

Download (117KB)

Indexing metadata

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register