1. Введение
В интенсивно развивающемся разделе вычислительной математики востребованы как непрерывные, так и итеративные методы решения седловых и равновесных задач. Мы рассматриваем итеративные проекционные методы отыскания седловых точек (ИПМОСТ). Напомним, что по определению, для всякой функции , , , с непустыми выпуклыми и замкнутыми множествами и , в евклидовых пространствах и , точку , называют седловой точкой функции, если эта точка есть решение системы неравенств
(1.1)
Седловой задачей называют задачу отыскания седловой точки. Седловым методом называют метод численного решения седловой задачи.
Известно, что к решению седловой задачи приводят экстремальные задачи математической физики, теории игр, математической экономики, оптимального управления и другие. Часто ИПМОСТ строятся на основе известных методов оптимизации (см., например, [1] [9]). В работах [1] [3], [7] имеются обзоры, в [8] [11] краткие обзоры, публикаций об исследовании методов решения седловых задач.
Простейший ИПМОСТ это известный метод проекции градиента (МПГ) седловой, который решает для выпукло-вогнутых гладких функций седловые задачи с хорошими (“неовражными”) гиперповерхностями уровней.
В связи с нуждами решения седловых задач науки и приложений, разрабатываются и обосновываются высокоскоростные методы их решения для седловых функций с “овражными” гиперповерхностями уровней. Методы переменной метрики (МПМ) для задач минимизации “овражных” функций характеризуются хорошей локальной скоростью сходимости, и при их реализации для седловых функций с овражными гиперповерхностями уровней ожидаются преимущества перед другими седловыми методами (см., например, [7], [11]) (хотя бы в случаях не самых сложных “оврагов” седловых функций).
Ввиду этого на основе идеи непрерывного "овражного" МПГ первого порядка с переменной метрикой (НМПГПМ) для задач минимизации, предложенного в работе [4], построен, авторами работы [4] и их учениками, ряд методов сначала для решения задач минимизации, затем равновесных. Например, в работе [5] исследован НМПГПМ второго порядка для решения "овражных" задач минимизации функции , отличающийся от метода первого порядка из работы [4] дифференциальным оператором второго порядка. Доказана сходимость этого метода, а также двух регуляризованных версий метода для решения неустойчивых задач минимизации. В [4], [5] использован оператор проектирования в переменной метрике , в гильбертовом пространстве . Метрика определена скалярным произведением , .
В работе [6] идея использования переменной метрики из [4] продолжена с дифференциального на итеративный метод минимизации функций с гиперповерхностями уровней “овражной структуры”, а именно, на предложенный в [6] проекционный обобщённый двухточечный двухэтапный экстраградиентный метод квазиньютоновский (ПОДЭМК) минимизации “овражных” функций , с оператором проектирования на выпуклое замкнутое множество в исходной метрике евклидова пространства .
Мы исследуем в этой работе ИПМОСТ для “овражных” седловых функций с операторами и проектирования на выпуклые замкнутые множества и в исходной метрике евклидовых пространств и . В работе [7] предложен и исследован ИПМОСТ для “овражной” седловой функции , , построенный на основе ПОДЭМК минимизации из [6], так называемый ПОДЭМК седловой (ПОДЭМКС), доказана его сходимость и линейная скорость сходимости для выпукло-вогнутых седловых функций, без предположения о сильной выпукло-вогнутости седловой функции.
В работах [8][10] были исследованы другие итеративные методы решения седловых и равновесных задач; в [11] исследован непрерывный проекционный обобщённый экстраградиентный квазиньютоновский метод второго порядка для решения седловых задач; доказана его сходимость и экспоненциальная скорость сходимости для выпукло-вогнутых функций.
Целью предлагаемой работы является исследование ПОДЭМКС модифицированного (ПОДЭМКСМ), построенного на основе ПОДЭМКС из работы [7], для решения седловой задачи (1.1) со сложными функциями , имеющими “овражные” гиперповерхности уровней. Для ПОДЭМКСМ доказана сходимость для выпукло-вогнутых функций с Липшицевыми частными градиентами и сверхлинейная, и квадратичная, скорости сходимости для дважды непрерывно дифференцируемых седловых функций, при дополнительных условиях.
Сформулируем математическую постановку седловой задачи. Cедловые задачи для конкретных математических моделей решаются при своих требованиях (к пространствам, множествам и функциям), выражающихся в постановке задачи и влияющих на метод её решения; мы здесь предполагаем следующие:
а) Пусть множества , , непустые выпуклые и замкнутые;
б) выпукло-вогнутая функция с "овражными" гиперповерхностями уровней определена на множестве выпукла по , и вогнута по , то есть для всех фиксированных функция выпукла на , а фиксированного функция вогнута на ;
в) множество седловых точек функции на непусто, ;
г) частные градиенты функции Липшицевы на :
(1.2)
где , константы Липшица, частный градиент, гессиан по первому аргументу, частный градиент, гессиан по второму аргументу. Скаляры индексы и означают индексы для элементов матриц Гессе, соответственно, , , , , , .
В терминах оператора проектирования седловая точка задачи (1.1) характеризуется равенствами [3]
(1.3)
где и операторы проектирования на множества и .
2. Метод решения задачи
Схема решение задачи (1.1)-(1.3) ПОДЭМКСМ строится следующим образом:
(2.1)
где , , положительные параметры метода; при каждом фиксированном и фиксированном положительно определённые самосопряженные операторы, изменяющие метрику пространства.
Оператор (в (2.1) ), и оператор (в (2.1) ) таковы, что:
(2.2)
(2.3)
Обратные операторы таковы, что
(2.4)
Для ПОДЭМКС (2.1) характеристики (1.3) седловой точки запишутся в виде
(2.5)
(2.6)
Замечание 2.1. Отметим, что критерии проекций по первой и второй переменным соответственно будут по евклидовой исходной метрике (см. [13], с. 189):
(2.7)
а при использовании в (2.1) операторов проектирования в новой метрике критериями проекций были бы неравенства
но здесь мы пользуемся (2.7), ибо в (2.1) операторы проектирования в исходной метрике.
3. Вспомогательные утверждения
Неравенства в леммах дополняют необходимый для доказательства сходимости и скорости сходимости метода математический аппарат.
Лемма 3.1. Пусть из (2.1) выпуклая функция удовлетворяет соотношениям
Тогда
(3.1)
Доказательство дано для работы [7].
Лемма 3.2. Пусть из (2.1) вогнутая функция удовлетворяет соотношениям
Тогда
(3.2)
Доказательство дано для работы [7].
Лемма 3.3. Для всякой тройки точек (или ) справедливо неравенство
(3.3)
Доказательство приведено, например, в работе [6].
4. Сходимость ПОДЭМКСМ
Теорема 4.1. Пусть выполнены: предположения а) г) из п. 1 о задаче (1.1) и функции ; неравенства (2.2) (2.4); параметры константы ПОДЭМКСМ (2.1) таковы:
(4.1)
Тогда процесс (2.1), (4.1) по норме пространства сходится к решению задачи (1.1), то есть , при .
Доказательство. Представим каждое уравнение из (2.1), пользуясь (2.7), в виде вариационного неравенства, тогда этот итерационный процесс запишется в форме:
(4.2)
(4.3)
(4.4)
(4.5)
Далее почти везде обозначим , , .
Здесь сначала преобразуем (4.2), (4.3), пользуясь свойствами скалярного произведения, формулой (2.1) и вспомогательными неравенствами.
Пользуясь неравенством Коши-Буняковского и нерасширяющим свойством оператора проектирования ([13], с. 190), из (4.2) имеем:
(4.6)
Первое слагаемое в неравенстве, следующем из (4.3) с учётом леммы 3.1,
(4.7)
где , , , преобразуем с помощью тождества
(4.8)
Получим
С учётом этого преобразования из (4.7) следует неравенство
(4.9)
В (4.9) преобразуем третье слагаемое, пользуясь нерастягивающим свойством оператора проектирования,
и здесь преобразуем среднее слагаемое с помощью (4.8),
тогда
Правую часть (4.9) сложим с неравенством (3.1) из леммы 3.1 при , умножив на и, c учётом константы Липшица для градиента гладкой выпуклой функции из леммы 1, применим неравенство для таких функций ([12], гл. 1, c. 25)
, . Подставив эти оценки слагаемых, из (4.9) получим,
(4.10)
В (4.10) второе слагаемое преобразуем с помощью левого неравенства (3.3), затем (4.6). Получим
отсюда
Подставив это преобразование в (4.10), получим неравенство
(4.11)
где , , .
Теперь рассмотрим неравенства (4.4) и (4.5). Представим неравенство (4.5) в форме
(4.12)
где по лемме 3.2 и, поскольку
для преобразования получим неравенство
(4.13)
С помощью нерасширяющего свойства оператора проектирования ([13], с. 190) и неравенства Коши-Буняковского, из (4.4) имеем
(4.14)
Первое слагаемое из (4.13) преобразуем с помощью тождества (4.8),
Ко второму и третьему слагаемым из (4.13) применим соответственно неравенства (см. [14], гл. 2, с.44; и [13], гл. 2, с. 93)
здесь число определено в лемме 3.2.
Приведя подобные, учитывая условие вогнутости и лемму 3.2, правая часть (4.12) с учётом (4.13) преобразуется к виду
Тогда из (4.12) и, следовательно, (4.13), следует,
(4.15)
Преобразуем здесь второе слагаемое с помощью левого неравенства (3.3) при , учтём оценку (4.14),
, а третье слагаемое преобразуем с помощью нерастягивающего свойства оператора проектирования и (4.8),
где использована получаемая с помощью (4.8) оценка
С учётом этих преобразований из (4.15) получим,
(4.16)
где , , .
Сложив неравенства (4.11) и (4.16), имеем
(4.17)
Просуммируем (4.17) от до , , тогда
(4.18)
где , , , , .
К первым двум, пятому и шестому слагаемым правой части (4.18) применим правое неравенство (3.3) при
Тогда из (4.18) следует,
(4.19)
где
и, с учётом неравенств
неравенство (4.19) упростится
(33)
Из (4.20) при следует сходимость ряда
Тогда (4.20) эквивалентно неравенству
Следовательно, из (4.20) следует: , , ; последовательность невозрастающая и ограничена и, по теореме Больцано-Вейерштрасса, существует сходящаяся подпоследовательность , и , ,
(4.21)
Тогда при из второго и четвёртого уравнений (2.1) следуют равенства (2.5), (2.6), эквивалентные характеристике (1.3) седловой точки в терминах оператора проектирования; следовательно, седловая точка функции , то есть решение задачи (1.1).
Положим , , выберем и числа и так, чтобы выполнялись неравенства
(4.22)
Просуммируем (4.17) от до при , , :
(4.23)
Третье, четвёртое слагаемые в правой части (4.23) оценим с помощью правого неравенства (3.3) при :
пятое и шестое слагаемые в левой части (4.23) оценим с помощью левого неравенства (3.3) при :
С учётом их, и неравенств , , , верных при условиях (4.1), и подбора подобных, из (4.23) следует
Отсюда с учётом (4.22), (4.23) и рассуждений и выкладок после (4.20), получим:
Из этого неравенства и предыдущих рассуждений после (4.20), следует, что вся последовательность сходится к седловой точке задачи (1.1), , , ибо пространства и полные, неравенства (36) выполняются для седловой точки и последовательность монотонна и ограничена.
Из сходимости по норме для аргумента, как известно из функционального анализа, следует сходимость по функционалу; прямое доказательство этого факта имеется, например, в работе [7].
Доказательство завершено.
Следствие 4.1. Поскольку по теореме 4.1 (расстояние до точки минимума монотонно убывает) последоательность сходится монотонно, то имеют место неравенства
5. Оценка сверхлинейной скорости сходимости ПОДЭМКСМ
Сначала получим вспомогательное неравенство, пользуясь неравенством (3.3).
Лемма 5.1. Если последовательность построена методом класса ПОДМ или другим методом минимизации, то для приращения , аргумента функции имеет место формула
(5.1)
Доказательство. Из левого неравенства (3.3) при , , , следует неравенство , . Отсюда имеем , . Применяя еще раз левое неравенство (3.3) при , , , , получим , . Подставим его в правую часть предыдущего неравенства и выберем подходящие интервалы параметров:
Приведём подобные и получим неравенство
или
(5.2)
Для (5.2) выбраны интервалы значений параметров так, чтобы иметь положительный коэффициент в правой части (5.1); из (5.2) следует неравенство (5.1).
Доказательство завершено.
Замечание 5.1. Теоретически в (5.1) годны все значения параметров , из указанных интервалов, но в практике применения разумно брать их не слишком большими или не слишком малыми (то есть не слишком близкими к границам допустимого для эпсилон интервала).
Например, при 1) , (или , ), 2) , , а также 3) , , из (5.1) имеем соответственно:
(5.3)
Оценку сверхлинейной скорости сходимости метода (2.1), (4.1) для выпукло вогнутой функции можно получить, если дополнить условия теоремы 5.1 предположением, что функция , и заметить, что в силу теоремы 1 и следствия: , , и , , при , , .
Тогда, ввиду непрерывности частных гессианов по переменным и , при
(5.4)
(5.5)
Предположим, что , как и в (5.4) , при имеем
(5.6)
; как и в (5.5) , при имеем
(5.7)
Теорема 5.1. Пусть выполнены все условия теоремы 4.1, леммы 5.1 и, кроме того:
1) функция ;
2) для последовательности , вырабатываемой ПОДЭМКСМ (2.1)-(2.4), (4.1), существует номер такой, что , при ;
3) выполнены соотношения (5.4), (5.5) и (5.6), (5.7).
Тогда последовательность , определяемая ПОДЭМКСМ (2.1), (4.1), со сверхлинейной скоростью сходится к решению задачи (1.1) при и
(5.8)
где , , , .
Доказательство. Результаты и выкладки теоремы 4.1 здесь справедливы. Запишем неравенство (4.3) в форме
, . Положим здесь и сложим с неравенством , полученным из (3.1):
Здесь в правой части с учётом (5.6) вынесем , a во втором скалярном произведении воспользуемся формулой Лагранжа. Получим
(5.9)
где
Пользуемся условиями теоремы, неравенством Коши-Буняковского, и учтём, что при ; тогда из (5.9) получим
или
(5.10)
Последний сомножитель в правой части (5.10) оценим с помощью нерастягивающего свойства оператора проектирования и (5.1) в варианте первого соотношения (5.3),
(5.11)
После подстановки оценки (5.11) из (5.10) следует
(5.12)
Из (5.12) следует оценка
(5.13)
где при , ибо ввиду (5.4) и (5.6) при
(5.14)
Теперь преобразуем неравенство (4.5).
Положим здесь и сложим с неравенством , полученным из (3.2):
С учётом (5.7), в правой части этого неравенства вынесем и применим во второй скобке формулу Лагранжа, затем вынесем скалярное произведение и применим неравенство Коши-Буняковского:
Отсюда следует,
(5.15)
Сомножитель в правой части (5.15) оценим с помощью нерастягивающего свойства оператора проектирования и (5.1) в варианте первого из неравенств (5.3),
(5.16)
Подставим оценку (5.16) в (5.15) и учтём, что при ; тогда из (5.15) получим
(5.17)
Из (5.17) следует оценка
(5.18)
где при , ибо ввиду (5.5) и (5.7) при
(5.19)
Сложив неравенства (5.13) и (5.18), получим доказываемую оценку
Доказательство завершено.
Замечание 5.2. Заметим следующее.
1) Если принять , , , то вместо (5.8) можно записать
2) Если вместо (5.13) и (5.18) сложим квадраты неравенств (5.13) и (5.18), то придём к неравенству
затем, при , получим вместо (5.8)
где обозначено .
6. Оценка квадратичной скорости сходимости ПОДЭМКСМ
При дополнительном условии относительно операторов , получим оценку квадратичной сходимости ПОДЭМКCМ (2.1). Воспользуемся обобщением неравенства из работы [15]. Предположим, что константы , и число таковы, что имеют место неравенства
(6.1)
(6.2)
Теорема 6.1. Пусть выполнены все условия теорем 4.1 и 5.1, неравенства (6.1), (6.2). Тогда последовательность ПОДЭМКСМ (2.1)(2.4), (4.1) с квадратичной скоростью сходится к решению задачи (1.1), причем
(6.3)
где , .
Доказательство. Заметим, что при условиях теоремы 6.1 все выкладки теорем 4.1, и 5.1, а также неравенства (5.11), (5.12) и (5.16), (5.17) справедливы. Здесь сначала воспользуемся в (5.12) неравенствами из (5.11), (5.14) и (6.1),
Подставив эту оценку в (5.12), получим
(6.4)
Воспользуемся неравенствами из (5.16), (5.19) и (6.2),
и воспользуемся полученной оценкой в (5.17), тогда из (5.17) имеем
Сложив это неравенство с (6.4), получим
(6.5)
Здесь примем ; . Тогда из (6.5) следует (6.3).
Доказательство завершено
Замечание 6.1. Можно доказать аналоги теорем 4.1 6.1 для обоснования модификации ПОДЭМКCM (2.1), часто успешной для численных реализаций:
где используются те же обозначения, что и в (2.1).
7. Заключение
В данной статье доказаны: сходимость ПОДЭМКСМ (2.1) для решения седловых задач с выпукло-вогнутыми седловыми функциями с Липшицевыми частными градиентами и сверхлинейная, и квадратичная, скорости сходимости метода в случае дважды непрерывно дифференцируемых, а следовательно, сильно выпукло-вогнутых седловых функций при соответствующих дополнительных условиях. ПОДЭМКСМ (2.1) обладает преимуществами, присущими двум классам методов решения седловых и равновесных задач: обобщённым двухточечным экстраградиентным и квазиньютоновским. Такие методы представляют значительный научный и прикладной интерес. Методы с квадратичной скоростью сходимости для решения седловых задач являются большой редкостью, они ценны для науки и приложений, поэтому их разработка и исследование актуальны.