Применение моделей математического программирования для решения проблемы XOR

Обложка

Цитировать

Полный текст

Аннотация

Проблема XOR является классической проблемой машинного обучения. Большинство методов машинного обучения при решении проблемы XOR дает неудовлетворительные результаты. Попытки улучшения метрик качества решающих правил за счет перехода от линейных разделителей к полиномиальным или увеличения глубины и числа деревьев ухудшает интерпретируемость решения и может приводить к переобучению. Поэтому данную проблему обычно решают нейронными сетями с использованием метода обратного распространения ошибки. В настоящий момент времени актуален поиск альтернатив нейросетевому подходу к решению задач классификации и методу обратного распространения ошибки для обучения нейронных сетей. Такой альтернативой могут быть комитетные конструкции в виде задач математического программирования. Эффективность их применения во многом зависит от структуры исходных данных. Классические комитеты единогласия, большинства и старшинства позволяют достичь высоких метрик качества решающего правила только при относительно простой структуре данных, но при ряде структур они не эффективны. Возникает закономерный вопрос о существовании комитетов с принципиально другой логикой, но соответствующей определенной структуре данных, которая заранее не известна и ее надо определить. Вопрос существования новых комитетных конструкций является отдельной научной проблемой. Предлагается дополнить множество комитетных конструкций XOR-комитетом. В статье приводится его логика, геометрическая интерпретация, математическая модель, сравнение с метриками качества решения другими методами машинного обучения. Сведение задач классификации к четко формализованным комитетным конструкциям в виде задачам математического программирования предоставляет дополнительные возможности по управлению качеством решающего правила в процессе его построения, а не постфактум, как это происходит при использовании программ из стандартных библиотек для решения задач машинного обучения.

Полный текст

Введение. Проблема XOR (exclusive OR, исключающее ИЛИ) – одна из наиболее важных классических проблем в области машинного обучения (МО). Поэтому ее решению различными способами посвящено большое количество исследований. Впервые эту проблему сформулировал создатель персептрона Фрэнк Розенблатт в 1961 году [1]. Наиболее просто данная проблема воспринимается, когда она сформулирована в геометрическом виде (рисунок 1). Пусть имеется всего 4 точки: две синих и две красных. Необходимо отделить синие точки от красных одной прямой.

 

Рис.1. Общая геометрическая постановка проблемы XOR

 

Суть проблемы состоит в следующем. На рисунке 1 множество красных точек одной линией (в общем случае гиперплоскостью) нельзя отделить от синих точек. То есть два множества линейно неразделимы. Несмотря на кажущуюся простоту задачи, многие специалисты по искусственному интеллекту (ИИ) посвятили ей свои исследования [2-13] и их разработки, с одной стороны, способствовали развитию методов машинного обучения (МО), но и приводили к так называемой «зиме ИИ» [2, 5]. Конечно, на практике все выглядит несколько сложнее и каждую точку надо воспринимать, как некоторое подмножество генеральной выборки. Обычно рассматриваются две ситуации. Назовем их простая (рисунок 2) и сложная (рисунок 3).

 

Рис. 2. Множества с простой структурой

 

Рис. 3. Множества со сложной структурой

 

При описании проблемы XOR обычно используется следующая схема: объясняется суть проблемы, показывается неэффективность использования ряда методов МО (логистическая регрессия, метод опорных векторов с полиномиальным ядром, случайный лес деревьев и т.п.), далее говорится, что задача решается достаточно простой нейросетью (НС) и поясняется, как это делается методом обратного распространения ошибки. Конечно, метод обратного распространения ошибки в настоящий момент является лидером среди методов обучения НС, но, как всякий метод, он имеет ряд существенных недостатков. Поэтому даже пионер в области Deep Learning Джеффри Хинтон считает, что надо заниматься поиском альтернатив, и предлагает свой новый метод Forward‑Forward [6].

Альтернативным подходом к решению проблемы XOR может быть применение метода комитетов. Комитетный подход к решению задач классификации был предложен Аблоу С.М. в 1965 году [7, 8]. Большой вклад в развитие данного метода за рубежом был сделан в работах Осборна М. Л [9] и Такиямы Р. А. [10]. В нашей стране наиболее полное развитие метод комитетов получил в научных школах распознавания образов Мазурова В. Д. [11, 12] и Журавлева С. Ю. [13]. Различные комитетные конструкции могут быть представлены в виде задач математического программирования (МП) [14] и решаться с помощью стандартных пакетов для решения таких задач, например, IBM ILOC CPLEX. Данный пакет позволяет за приемлемое время решать задачи МП большой размерности. Сведение процесса построения комитетных конструкций к задачам МП предоставляет дополнительные возможности по управлению качеством решающего правила (РП) в процессе его построения, а не постфактум, как это происходит при использовании программ из стандартных библиотек МО [15].

Традиционно рассматриваются комитеты с логикой единогласия, большинства и старшинства. В статьях Такиямы Р.А. [10] приводится модель комитета с произвольной логикой, но эта модель в конечном итоге сводится только к комитетам единогласия и большинства (КБ). Отметим, что комитет единогласия (КЕ) существует не всегда, но имеет наиболее простую структуру. В работах Мазурова В.Д. [11] доказано, что комитет большинства существует всегда. Так как комитет старшинства (КС) можно построить итерационным способом с отсечением хотя бы одного из элементов множества точек классов на каждой итерации, то он тоже существует всегда. Одним из достоинств комитетных конструкций является то, что каждая из них имеет четкие геометрические интерпретации. Поэтому при использовании метода комитетов можно не только получить решающее правило (РП), но и понять структуру данных, что достаточно важно при решении практических задач. Модели классических комитетных конструкций в виде задач МП и их графические интерпретации приведены в [14], причем каждая из них наиболее эффективна по числу членов комитета и метрикам качества РП только при определенной структуре данных. Например, при структуре, соответствующей рисунку 3, все классические комитеты дадут достаточно посредственный результат. Поэтому возникает закономерный вопрос о существовании комитетов с принципиально другой логикой, позволяющей при минимальном числе членов комитета добиться высоких метрик качества РП. Вопрос существования таких комитетных конструкций является отдельной научной проблемой. Один из вариантов ее решения предлагается в данной статье.

Для решения проблемы XOR с простой структурой данных лучше всего использовать итерационный КС или КЕ [14]. На рисунках 2 и 3 направления голосования (градиенты функций) членов комитета показаны черными стрелками. На рисунке 2 видно, что структура множеств позволяет решить задачу классическими КЕ или КС. При структуре множеств, как на рисунке 3, классический КЕ невозможен, а КБ и КС будут избыточно сложными и не дадут хорошего качества РП. Поэтому необходимо использовать отдельную комитетную конструкцию со следующей логикой:

  1. Для элементов одного из множеств все члены комитета единогласно голосуют либо за, либо против. Это множество далее будем обозначать как J1.
  2. Для элементов другого множества мнение хотя бы одного из членов комитета не совпадает с мнением остальных. Это множество далее будем обозначать как J2.

Следует отметить, что при такой логике комитет единогласия является частным случаем XOR-комитета. При построении новой комитетной конструкции сразу следует учитывать, что в практических задачах построение любых комитетов без погрешности встречается довольно редко и скорее всего свидетельствует о переобучении модели. Естественно, что количество невыполнений условий комитета должно быть минимизировано. Новую комитетную конструкцию назовем XOR-комитет и приведем ее математическую модель. Так как любое наблюдение можно представить, как точку в пространстве входных признаков, то в дальнейшем слова “наблюдение” и “точка множества” будем использовать как слова-синонимы.

1. Математическая модель XOR-комитета

Далее будем использовать следующую систему обозначений:

J1 и J2 – разделяемые множества;

J – множество наблюдений (точек)  J=J1J2;

M1 – мощность множества1 (количество наблюдений, точек);

M2 – мощность множества2 (количество наблюдений, точек) ;

I – множество параметров наблюдений;

H – множество гиперплоскостей (членов комитета, нейронов);

j,i,h – индексы соответствующих множеств;

Pij – входные признаки наблюдений (константы);

L – очень большое число;

E – малое число, используемое для строгости ограничений;

K – количество гиперплоскостей (членов комитета, нейронов) ;

aih – коэффициенты гиперплоскостей (переменные);

bh – свободные члены гиперплоскостей (переменные);

vjh, wjh расстояние от j-ой точки до h-ой гиперплоскости (переменные);

zjh булевы переменные, для фиксации расположения j-ой точки

относительно h-ой гиперплоскости;

yj – булева переменная (y=0 – все члены голосуют за, y=1 – все члены голосуют против);

dj – переменные для коррекции нижних границ комитетной конструкции;

gj – переменные для коррекции верхних границ комитетной конструкции.

Условия разграничения множеств гиперплоскостями могут быть записаны следующим образом:

iIPij*aih+bh+vjh-wjh=0                                                                     hH, jJ  (1)

0vjhL*zjh                                                                                                   hH, jJ   (2)

0wjhL*1zjh                                                                                      hH, jJ   (3)

Условия (2), (3) запрещают переменным vjh, wjh одновременно быть больше нуля.

Условия для XOR-комитета, c возможностью их корректировки, могут быть записаны следующим образом:

hHzjh=K*yj dj+gj                                                                                   jJ1 (4)

djK                                                                                                                           jJ1 (5)

gjK                                                                                                                           jJ1 (6)

1djhHzjhK1+gj                                                                             jJ2 (7)

dj1                                                                                                                            jJ2 (8)

gj1                                                                                                                             jJ2 (9)

Следует отметить, что чисто теоретически без разницы, какое из множеств считать за J1, а другое за J2. На рисунке 2 видно, что для смены множеств местами (в модели) достаточно развернуть градиент одной из гиперплоскостей.

Для корректности систему ограничений для одного из множеств (например, J1) необходимо дополнить следующими ограничениями:

vjh+wjhE                                                                                                             hH, jJ1 (10)

Это ограничение будет запрещать точкам одного из множеств попадать на гиперплоскости.

Целевая функция: minjJ (dj+gj) (11)

При использовании целевой функции (11) будет максимизироваться метрика Accuracy (Аккуратность). Данная метрика качества РП хорошо воспринимается практическими специалистами и хорошо работает при сбалансированных классах. В случае сильной несбалансированности классов лучше использовать метрику AUC ROC (площадь под ROC кривой). В этом случае целевая функция будет:

min      M2*jJ1(dj+gj)+M1*jJ2(dj+ gj)(12)

Подробное описание метрик Accuracy и AUC ROC, а также обоснование, что критерии (11), (12) им соответствуют, приведены в [14]. Дополнительные возможности по управлению качеством РП приведены в [15]. На основе данной модели написаны программы в кодах IBM ILOC CPLEX и на языке Python c использованием пакета MIP (Mixed Integer Programming). Программа на Python зарегистрирована в Федеральном институте промышленной собственности [16].

2. Апробирование XOR-комитета на условных примерах. Для условных примеров были использованы данные, приведенные на рисунках 2 и 3. В таблицах 1 и 2 приведены метрики качества РП, полученные классическими методами МО и различных комитетных конструкций.

 

Таблица 1. Результаты метрик методов МО при простой структуре множеств

Название метода

Accuracy

AUC ROC

Линейное разделение

0.586

0.543

Опорных векторов

0.621

0.591

Логистическая регрессия

0.586

0.484

Ближайших соседей

0.897

0.874

Наивный байес

0.621

0.568

Дерево решений

0.828

0.797

Нейронная сеть из двух нейронов

0.790

0.754

Нейронная сеть из трех нейронов

0.923

0.945

Комитет единогласия из двух членов

0.881

0.885

Комитет единогласия из трех членов

0.881

0.885

Комитет большинства из трех членов

0.706

0.755

Комитет старшинства из двух членов

0.748

0.755

Комитет старшинства из трех членов

0.741

0.759

XOR - комитет из двух членов

0.86

0.836

XOR - комитет из трех членов

0.839

0.834

 

Таблица 2. Результаты метрик методов МО при сложной структуре множеств

Название метода

Accuracy

AUC ROC

Линейное разделение

0.521

0.41

Опорных векторов

0.479

0.391

Логистическая регрессия

0.396

0.354

Ближайших соседей

0.833

0.796

Наивный байес

0.708

0.362

Дерево решений

0.771

0.834

Нейронная сеть из двух нейронов

0.848

0.911

Нейронная сеть 2 скрытых слоя 6 нейронов

0.954

0.923

Комитет единогласия из двух членов

0.852

0.867

Комитет единогласия из трех членов

0.801

0.827

Комитет большинства из трех членов

0.519

0.64

Комитет старшинства из двух членов

0.464

0.639

Комитет старшинства из трех членов

0.561

0.755

XOR - комитет из двух членов

0.966

0.954

XOR - комитет из трех членов

0.966

0.954

 

При простой структуре множеств метрики качества решения комитета единогласия из двух членов лучше метрик нейронной сети из двух нейронов в 1 скрытом слое (активатор ReLU). При трех нейронах метрики нейронной сети становятся лучше метрик комитетов единогласия. XOR-комитет показал результаты, сопоставимые с комитетом единогласия, но несколько хуже. Значит, комитет единогласия наиболее подходит для описания структуры множества синих точек на рисунке 2, так как дает наиболее простое и хорошо интерпретируемое решение.

При сложной структуре множеств наилучшие метрики качества показывает XOR-комитет из двух членов. Нейронная сеть сопоставимые результаты показала только при архитектуре в 2 скрытых слоя (в первом слое 4 нейрона, во втором слое 2 нейрона). Все остальные методы имеют метрики качества значительно хуже.

В реальных задачах классификации, в том числе и в проблеме XOR, данные редко имеют простую и линейно разделимую структуру. Сложные структуры данных могут быть вызваны различными факторами: наличием выбросов, смешанными признаками классов, значительными нелинейностями в пространстве признаков, а также самой природой закономерностей в данных. В таких случаях традиционные методы машинного обучения, включая линейные модели, логистическую регрессию, деревья решений и методы опорных векторов, часто демонстрируют недостаточную точность и обобщающую способность.

XOR-комитеты представляют собой один из подходов, способный обеспечить как высокую точность, так и интерпретируемость модели, что делает их полезным инструментом для работы с реальными, сложными данными. Заметим, что по сравнению с нейронной сетью используется более простая архитектура – множество было разделено с аналогичным качеством с использованием 2 гиперплоскостей, что значительно проще для анализа данных, тогда как нейронная сеть потребовала 2 слоя и 6 нейронов, что затрудняет интерпретацию решения.

В задачах, где важна интерпретируемость решений (например, в медицине или финансовом секторе), возможность визуального анализа структуры множества данных и их классификации имеет ключевое значение. XOR-комитеты позволяют построить четкую геометрическую модель, где можно наглядно увидеть влияние каждой гиперплоскости на итоговое решение, что, в свою очередь, помогает лучше понять структуру данных и механизмы классификации. В целом XOR-комитеты могут выступать как альтернативный способ решения задачи классификации и представляют практический интерес для применения в реальных задачах.

Заключение. В данной статье приведена комитетная конструкция с логикой, существенно отличающейся от классических логик единогласия, большинства и старшинства. Естественно, что любой человек не может видеть картину расположения данных в пространствах более трех, но понять их структуру по аналогии с двухмерным пространством возможно на основе методов МО и, особенно, комитетных конструкций. Поэтому при решении конкретной задачи надо применять все доступные методы машинного обучения и сравнивать метрики качества РП, полученных на их основе. При этом надо понимать, что качество решения не сводится только к классическим метрикам Accuracy, Precision, AUC ROC т.п [15]. Обязательно надо учитывать сложность РП и интерпретируемость. Конечно, переход от линейных разделителей к полиномиальным может дать улучшение метрик качества, но увеличит ли это интерпретируемость РП? Аналогично, использование случайного леса с большим количеством деревьев обычно улучшает результат прогноза, но делает его не интерпретируемым. Все эти вопросы наиболее остро встают при сложной структуре исходных данных, поэтому поиск новых методов решения проблемы XOR остается актуальной задачей.

×

Об авторах

Павел Федорович Чернавин

Уральский федеральный университет

Автор, ответственный за переписку.
Email: p.f.chernavin@urfu.ru
ORCID iD: 0000-0003-3214-3906
SPIN-код: 6370-8103

к.э.н., доцент кафедры Аналитика больших данных и методы видеоанализа

Россия, Екатеринбург

Николай Павлович Чернавин

Уральский федеральный университет

Email: ch_k@mail.ru
ORCID iD: 0000-0002-2093-9715
SPIN-код: 5722-9436

aссистент кафедры Аналитика больших данных и методы видеоанализа

Россия, Екатеринбург

Федор Павлович Чернавин

Уральский федеральный университет

Email: chernavin_fedor@mail.ru
ORCID iD: 0000-0003-4105-231X
SPIN-код: 9237-5190

доцент кафедры Моделирование управляемых систем

Россия, Екатеринбург

Список литературы

  1. Frank Rosenblatt Principles of neurodynamics: perceptrons and the theory of brain mechanisms. Spartan books, 1962, p. 616.
  2. Минский М. Персептроны / М. Минский, С. Пейпер. – М.: Мир, 1971. – 262 с.
  3. Rumelhart D.E., Hinton G.E., Williams R.J. Learning internal representations by error propagation. In: Parallel distributed processing, Cambridge, MA, MIT Press, 1986, vol. 1, pp. 318–362.
  4. Блюм А. Обучение трехузловой нейронной сети является NP-полным. / А. Блюм, Р. Ривест // Нейронные сети, 1992. – № 5. – C. 117-127
  5. Ахире Д.Б. Демистификация проблемы XOR. – URL: https:dev.to/jbahire/demystifying-the-problem-1blk (дата обращения: 24.02.24).
  6. Jeffrey H. The forward-forward algorithm: some preliminary studies. Available at: https://arxiv.org/abs/2212.13345, (accessed: 02/24/24)
  7. Ablow C.M., Kaylor D.J. A Committee solution of the pattern recognition problem. IEEE transactions on information theory IT-11, 1965, vol. 3, pp. 453-455.
  8. Ablow C.M. & Kaylor D.J. Inconsistent homogeneous linear inequalities. Bulletin of the American mathematical society, 1965, vol. 71. no. 5, p. 724.
  9. Osborne M.L. The seniority logic: a logic for a committee machine. IEEE trans. on comp, 1977, vol. C-26, no.12, pp. 1302–1306.
  10. Takiyama R.A. General method for training the committee machine. Pattern recognition, 1978, vol. 10, no. 4, pp. 255–259.
  11. Мазуров В.Д. Комитеты системы линейных неравенств / В.Д. Мазуров, М.Ю. Хачай // Автоматика и телемеханика, 2004. – №2. – С. 43–54.
  12. Мазуров В.Д. Экзистенциальные вопросы комитетных конструкций / В.Д. Мазуров // Часть II. Вестник Южно-Уральского государственного университета, 2019. – Т.19. – №1. – С. 114–120.
  13. Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения / Ю.И. Журавлев, В.В. Рязанов, О.В. Сенько. – М.: Фазис, 2005. – 159 с.
  14. Машинное обучение на основе задач математического программирования // Чернавин П.Ф., Гайнанов Д.Н., Панкращенко В.Н. и др. – М.: Наука, 2021. – 128 с.
  15. Чернавин П.Ф. Оптимизационные модели подбора параметров технологических процессов на основе результатов машинного обучения / П.Ф. Чернавин, Н.П. Чернавин, Ф.П. Чернавин // Информационные и математические технологии в науке и управлении, 2023. – № 2(30). – С. 45–56 .
  16. Чернавин П.Ф. Комитет линейных разделителей для данных со структурой XOR. Федеральный институт промышленной собственности (ФИПС). №2024618484 от 12.04.2024

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис.1. Общая геометрическая постановка проблемы XOR

Скачать (18KB)
3. Рис. 2. Множества с простой структурой

Скачать (96KB)
4. Рис. 3. Множества со сложной структурой

Скачать (117KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».