Globalizing convergence of piecewise Newton methods

Dmitriy I. Dorovskikh; Доровских Дмитрий Игоревич; Alexey F. Izmailov; Измаилов Алексей Феридович; Evgeniy I. Uskov; Усков Евгений Иванович

doi:10.20310/2686-9667-2024-29-146-149-163

Globalizing convergence of piecewise Newton methods

Authors: Dorovskikh D.I.¹, Izmailov A.F.¹, Uskov E.I.²
Affiliations:
1. Lomonosov Moscow State University
2. Derzhavin Tambov State University
Issue: Vol 29, No 146 (2024)
Pages: 149-163
Section: Articles
URL: https://ogarev-online.ru/2686-9667/article/view/266063
DOI: https://doi.org/10.20310/2686-9667-2024-29-146-149-163
ID: 266063

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

We consider versions of the Newton method for piecewise smooth nonlinear equations, as well as of the Gauss–Newton method for the case when additional constraints are imposed, supplied with linesearch procedures for the residual of the equation, aiming at globalization of convergence. (Constrained) piecewise smooth nonlinear equations arise naturally as reformulations of systems of equations and inequalities involving complementarity conditions. In cases when the direction of the Newton method cannot be computed, or appears too long, the algorithm switches to a safeguarding step of the gradient descent method for the squared residual of of the equation with smooth selection mapping active at the current iterate. For the Gauss–Newton method, safeguarding steps of the gradient projection method are employed. We obtain results characterizing properties of possible accumulation points of sequences generated by these methods, namely, stationarity of any such point for at least one smooth selection mapping active at it, and conditions assuring asymptotic superlinear convergence rate of such sequences. Special attention is paid to the majorization condition for the norm of the mapping by the norms of smooth selection mappings, playing a crucial role in the analysis for the piecewise smooth case. Examples are provided demonstrating that in cases of violation of this condition, the algorithms in question may produce sequences converging to points that are not stationary for any active smooth selection mapping.

Keywords

constrained nonlinear equation, piecewise smooth mapping, piecewise Newton method, piecewise Gauss–Newton method, linesearch, global convergence, superlinear convergence rate

Full Text

Введение

Рассматривается уравнение с ограничением

$Φ u u \in P,$ (0.1)

где $Φ ℝ^{p} \to ℝ^{q}$ — заданное отображение, а $P \subset ℝ^{p}$ — заданное непустое замкнутое множество. Целью данной работы является глобализация сходимости ньютоновских методов для задачи (0.1) в пониженных требованиях гладкости. Основным объектом интереса является случай, когда отображение в (0.1) является кусочно-гладким, т. е. оно непрерывно, и существует конечный набор гладких (в том или ином смысле; точные требования гладкости будут приводиться в каждом формулируемом ниже утверждении) кусочных отображений $Φ^{1}, \dots, Φ^{s} ℝ^{p} \to ℝ^{q}$ таких, что

$Φ u \in Φ^{1} u \dots, Φ^{s} u \forall u \in ℝ^{p} .$

Случай $s = 1$ соответствует гладкому отображению Согласно [1, теорема 2.1], любое кусочно-гладкое отображение с непрерывно дифференцируемыми кусочными отображениями является локально липшицевым.

Важнейшим источником кусочно-гладких уравнений являются комплементарные системы

$a (u) = 0, b (u) ⩾ 0, c (u) ⩾ 0, d (u) ⩾ 0, ⟨ c (u), d (u) ⟩ = 0,$ (0.2)

с заданными непрерывно дифференцируемыми отображениями $a ℝ^{p} \to ℝ^{l},$ $b ℝ^{p} \to ℝ^{m},$ $c ℝ^{p} \to ℝ^{r},$ $d ℝ^{p} \to ℝ^{r} .$ Система (0.2) может быть эквивалентным образом записана в виде (0.1) с кусочно-гладким $Φ (u) = (a (u), \min {c (u), d (u)}),$ где минимум берется покомпонентно, и с $P = {u \in ℝ^{p} | b (u) ⩾ 0, c (u) ⩾ 0, d (u) ⩾ 0},$ или просто с $P = {u \in ℝ^{p} | b (u) ⩾ 0} .$ Ограничения, задающие можно заменить простыми, а именно, условиями неотрицательности на дополнительные переменные («слэки»; детали см., например, в [2]).

Для каждого $u \in ℝ^{p}$ определим множество

$A (u) = {j \in {1, \dots, s} | Φ (u) = Φ^{j} (u)}$ (0.3)

индексов кусочных отображений активных в точке $u .$ Пусть $G ℝ^{p} \to ℝ^{q \times p}$ — любое отображение, удовлетворяющее

$G (u) \in {(Φ^{j})^{'} (u) | j \in A (u)} \forall u \in ℝ^{p} .$ (0.4)

Кусочные ньютоновские методы — это общее название для класса алгоритмов, каждая итерация которого в текущем приближении $u^{k}$ состоит в осуществлении итерации соответствующего ньютоновского метода для гладкого уравнения с ограничением

$Φ^{j} (u) = 0, u \in P,$ (0.5)

для некоторого $j \in A (u^{k}) .$ Разумеется, индекс $j$ на разных итерациях может быть разным. Иными словами, это ньютоновский метод, в котором (вообще говоря не существующая) производная $Φ^{'} (u^{k})$ заменяется ее кусочным «суррогатом» $G (u^{k}) .$

Ключевую роль в анализе глобальной сходимости ниже будет играть следующее предположение, которое уже появлялось в [3, (4.8)], [4, (32)]:

$∥ Φ (u) ∥ ⩽ ∥ Φ^{j} (u) ∥ \forall j \in {1, \dots, s} \forall u \in P .$ (0.6)

Для определенности здесь и далее будем считать, что используется евклидова норма.

В этой связи заметим, что ограничения $c (u) ⩾ 0$ и $d (u) ⩾ 0$ в определении $P$ для переформулировки комплементарной системы (0.2) могут показаться излишними: если их опустить, то множество решений соответствующей задачи (0.1) не изменится. Однако, как легко видеть, именно наличие этих ограничений обеспечивает выполнение в данном случае условия (0.6); см. примеры 1.1 и 1.2 ниже, а также обсуждения этого вопроса в [2–4].

1. Кусочный метод Ньютона

В этом разделе будем рассматривать случай, когда число уравнений равно числу переменных, и ограничений нет: пусть $p = q$ и $P = ℝ^{p} .$ Для текущего приближения $u^{k} \in ℝ^{p}$ итерация кусочного метода Ньютона генерирует следующее приближение как $u^{k} + v^{k},$ где $v^{k}$ определяется как решение линейного уравнения

$Φ (u^{k}) + G (u^{k}) v = 0,$ (1.1)

а $G$ задается соотношениями (0.3) и (0.4). Иными словами, $v^{k}$ является решением линейного уравнения

$Φ^{j} (u^{k}) + (Φ^{j})^{'} (u^{k}) v = 0$ (1.2)

с некоторым $j \in A (u^{k}),$ а такая итерация есть итерация базового метода Ньютона для соответствующего гладкого уравнения в (0.5).

Для функции $φ_{j} ℝ^{p} \to ℝ,$

$φ_{j} (u) = \frac{1}{2} ∥ Φ^{j} (u) ∥^{2},$ (1.3)

имеет место

$φ_{j^{'}} (u^{k}) = {((Φ^{j})^{'} (u^{k}))}^{⊤} Φ^{j} (u^{k}),$ (1.4)

и поэтому

$⟨ φ_{j^{'}} (u^{k}), v^{k} ⟩ = ⟨ {((Φ^{j})^{'} (u^{k}))}^{⊤} Φ^{j} (u^{k}), v^{k} ⟩ = ⟨ Φ^{j} (u^{k}), (Φ^{j})^{'} (u^{k}) v^{k} ⟩ = - ∥ Φ^{j} (u^{k}) ∥^{2},$ (1.5)

где последнее равенство следует из (1.2). Отсюда получаем, что $v^{k}$ является направлением убывания для функции $φ_{j}$ в точке $u^{k},$ если только $Φ^{j} (u^{k}) = Φ (u^{k}) = 0,$ т. е. если текущее приближение $u^{k}$ не является решением уравнения в (0.1). Это соображение служит основанием для использования одномерного поиска по направлению $v^{k}$ с целью глобализации сходимости кусочного метода Ньютона, реализованной в алгоритме 1 ниже.

Заметим, однако, что матрица $G (u^{k})$ в (1.1) может оказываться вырожденной, и тогда это уравнение может не иметь решений. Более того, даже если $v^{k}$ существует, его «качество» как направления убывания может быть недостаточным для обеспечения разумных свойств глобальной сходимости такого алгоритма. В таких случаях (а именно, в тех случаях, когда направление $v^{k}$ оказывается «слишком длинным») алгоритм использует страховочный градиентный шаг для функции $φ_{j} .$ Для гладких уравнений данная стратегия глобализации сходимости метода Ньютона обсуждалась в [5, разд. 5.1].

Алгоритм 1. Фиксируем параметры $C > 0,$ $τ > 0,$ $ε \in (0, 1)$ и $ϰ \in (0, 1)$ . Выбираем $u^{0} \in ℝ^{p}$ и полагаем $k = 0.$

Если $Φ (u^{k}) = 0,$ стоп.
Вычисляем $v^{k}$ как решение линейного уравнения (1.1). Если $v^{k}$ не удается вычислить, или $v^{k}$ нарушает неравенство

$∥ v^{k} ∥ ⩽ \max {C, 1 / ∥ Φ (u^{k}) ∥^{τ}},$ (1.6)

переходим к шагу 4.

3. Полагаем $α = 1.$ Если выполняется неравенство

$∥ Φ (u^{k} + α v^{k}) ∥ ⩽ (1 - ε α) ∥ Φ (u^{k}) ∥,$ (1.7)

полагаем $α_{k} = α$ и переходим к шагу 6. В противном случае заменяем $α$ на $ϰ α$ и проверяем снова неравенство (1.7) до тех пор, пока оно не выполнится, после чего полагаем $α_{k} = α$ и переходим к шагу 6.

4. Полагаем $α = 1.$ Если выполняется неравенство Армихо

$φ_{j} (u^{k} + α v^{k}) ⩽ φ_{j} (u^{k}) - ε α ∥ v^{k} ∥^{2},$ (1.8)

полагаем $α_{k} = α .$ В противном случае заменяем $α$ на $ϰ α$ и проверяем снова неравенство (1.8) до тех пор, пока оно не выполнится, после чего полагаем $α_{k} = α .$

5. Полагаем $u^{k + 1} = u^{k} + α_{k} v^{k},$ увеличиваем $k$ на и переходим к шагу 1.

Если заменить $Φ$ в (1.7) на $Φ^{j}$ для $j \in A (u^{k})$ такого, что $G (u^{k}) = (Φ^{j})^{'} (u^{k})$ (что при выполнении (0.6) дает неравенство, из которого следует (1.7)), то, согласно (1.3) и (1.4), получим

$φ_{j} (u^{k} + α v^{k}) ⩽ {(1 - ε α)}^{2} φ_{j} (u^{k}) = φ_{j} (u^{k}) - ε α ∥ Φ^{j} (u^{k}) ∥^{2} + \frac{1}{2} α^{2} ∥ Φ^{j} (u^{k}) ∥^{2}$

$= φ_{j} (u^{k}) - ε α ⟨ φ_{j^{'}} (u^{k}), v^{k} ⟩ + \frac{1}{2} α^{2} ∥ Φ (u^{k}) ∥^{2},$

что автоматически выполняется в случае выполнения соответствующей формы неравенства Армихо

$φ_{j} (u^{k} + α v^{k}) ⩽ φ_{j} (u^{k}) + ε α ⟨ φ_{j^{'}} (u^{k}), v^{k} ⟩ .$ (1.9)

Иными словами, в п. 3 алгоритма 1 вместо (1.7) можно было бы, как и в п. 5, использовать неравенство Армихо (1.9) для $φ_{j},$ но это приводило бы, вообще говоря, к более ограничительному требованию на параметр длины шага $α_{k} .$

Теорема 1.1. Пусть $Φ : ℝ^{p} \to ℝ^{p}$ — кусочно-гладкое отображение с непрерывно дифференцируемыми кусочными отображениями $Φ^{1}, \dots, Φ^{s} .$ Пусть для $P = ℝ^{p}$ выполняется предположение (0.6). Пусть $G : ℝ^{p} \to ℝ^{p \times p}$ — любое отображение, удовлетворяющее (0.4).

Тогда алгоритм 1 либо останавливается в точке $u^{k},$ удовлетворяющей

${((Φ^{j})^{'} (u^{k}))}^{⊤} Φ (u^{k}) = 0$ (1.10)

по крайней мере для одного $j \in A (u^{k}),$ либо генерирует бесконечную последовательность ${u^{k}},$ любая предельная точка которой удовлетворяет

${((Φ^{j})^{'} (\bar{u}))}^{⊤} Φ (\bar{u}) = 0$ (1.11)

по крайней мере для одного $j \in A (\bar{u}) .$

Доказательство. Согласно (1.4), алгоритм может остановиться на некоторой итерации $k,$ только если либо $u^{k}$ удовлетворяет $Φ (u^{k}) = 0,$ либо выполняется (1.10) для некоторого $j \in A (u^{k}),$ причем в первом случае, согласно (0.3), $Φ^{j} (u^{k}) = Φ (u^{k}) = 0,$ и равенство (1.10) тоже выполняется (для любого $j \in A (u^{k})$ ).

Вместе с тем, если (1.10) не выполняется для $j \in A (u^{k})$ такого, что $G (u^{k}) = (Φ^{j})^{'} (u^{k}),$ то при любом выборе $v^{k}$ в алгоритме 1, из (1.5) следует, что $⟨ φ_{j^{'}} (u^{k}), v^{k} ⟩ < 0.$ Но тогда, с учетом обсуждения перед формулировкой теоремы, стандартным образом получаем (см., например, [6, лемма 3.1.2]), что подходящее значение $α_{k} > 0$ в п. 3 или 5 алгоритма будет найдено после конечного числа дроблений (умножений текущего $α$ на $ϰ$ ), а значит, алгоритм успешно определит $u^{k + 1} .$

Пусть теперь (1.10) не выполняется для $j \in A (u^{k})$ такого, что $G (u^{k}) = (Φ^{j})^{'} (u^{k}),$ ни для какого $k,$ а значит, алгоритм генерирует бесконечную последовательность ${u^{k}} .$ Для любой предельной точки $\bar{u}$ этой последовательности, в силу включения $A (u) \subset A (\bar{u})$ для всех $u \in ℝ^{p}$ достаточно близких к $\bar{u},$ и в силу конечности множества $A (\bar{u}),$ a также с учетом (0.4), найдется сходящаяся к $\bar{u}$ подпоследовательность ${u^{k_{i}}}$ такая, что $G (u^{k_{i}}) = (Φ^{j})^{'} (u^{k_{i}})$ для всех $i,$ для некоторого фиксированного $j \in A (\bar{u}) .$

Если бесконечную подпоследовательность $u^{k_{i}}$ выше можно выбрать так, что ньютоновское направление принимается на шаге 2 алгоритма для любого $i,$ то дальнейшее рассуждение повторяет доказательство в [7, теорема 3.1] применительно к $Φ^{j}$ (вместо $Φ$ ).

Остается рассмотреть случай, когда ньютоновское направление не принимается на шаге 2 алгоритма в точках подпоследовательности ${u^{k_{i}}}$ ни для какого $i .$ Заметим, что в силу (0.6) и (1.7), (1.8), для всякого выполняется

$φ_{j} (u^{k_{i}}) ⩾ φ_{j} (u^{k_{i} + 1}) ⩾ \frac{1}{2} ∥ Φ (u^{k_{i} + 1}) ∥^{2} ⩾ \frac{1}{2} ∥ Φ (u^{k_{i} + 2}) ∥^{2} ⩾ \dots$

$⩾ \frac{1}{2} ∥ Φ (u^{k_{i + 1}}) ∥^{2} = φ_{j} (u^{k_{i + 1}}) ⩾ φ_{j} (u^{k_{i + 1} + 1}) ⩾ \dots,$ (1.12)

т. е. последовательность ${\dots φ_{j} (u^{k_{i}}), φ_{j} (u^{k_{i} + 1}), \dots}$ монотонно невозрастает. При этом подпоследовательность ${φ_{j} (u^{k_{i} + 1})}$ этой последовательности сгенерирована градиентными шагами с использованием правила Армихо. Тогда, согласно [8, теорема 1.16], любая предельная точка последовательности ${u^{k_{i}}},$ т.е. $\bar{u},$ удовлетворяет $φ_{j^{'}} (\bar{u}) = 0,$ что, согласно (0.3) и (1.4), и есть (1.11).

Теорема 1.2. Пусть $Φ : ℝ^{p} \to ℝ^{p}$ — кусочно-гладкое отображение с дифференцируемыми вблизи точки $\bar{u} \in ℝ^{p}$ кусочными отображениями $Φ^{1}, \dots, Φ^{s},$ причем производные $Φ^{j},$ $j \in A (\bar{u}),$ непрерывны в этой точке. Пусть $\bar{u}$ является решением уравнения в (0.1), причем матрицы Якоби $(Φ^{j})^{'} (\bar{u})$ невырождены для всех $j \in A (\bar{u}) .$ Пусть $G : ℝ^{p} \to ℝ^{p \times p}$ — любое отображение, удовлетворяющее (0.4).

Тогда, если алгоритм 1 генерирует приближение достаточно близкое к $\bar{u},$ то либо он останавливается с $u^{k} = \bar{u},$ либо генерирует бесконечную последовательность ${u^{k}},$ которая сходится к $\bar{u}$ сверхлинейно. Если производные $Φ^{j},$ $j \in A (\bar{u}),$ удовлетворяют условию Липшица относительно $\bar{u},$ то скорость сходимости квадратичная.

Доказательство. При достаточной близости $u^{k}$ к $\bar{u},$ с учетом включения $A (u^{k}) \subset A (\bar{u})$ и (0.4), и невырожденности $(Φ^{j})^{'} (\bar{u})$ для всех $j \in A (\bar{u})$ из стандартных результатов о локальной сверхлинейной сходимости метода Ньютона (например [5, теорема 2.2]) для уравнения в (0.5), и из конечности множества $A (\bar{u}),$ вытекает существование и единственность $v^{k},$ удовлетворяющего (1.1), причем

$u^{k} + v^{k} - \bar{u} = o (∥ u^{k} - \bar{u} ∥)$ (1.13)

при $u^{k} \to \bar{u} .$ Очевидным последствием этого является то, что при достаточной близости $u^{k}$ к $\bar{u}$ направление $v^{k}$ принимается тестом (1.6) на шаге 2 алгоритма 1.

Далее, из [5, предложение 1.32] и $(Φ^{j})^{'} (\bar{u})$ для всех $j \in A (\bar{u})$ вытекает оценка

$u^{k} - \bar{u} = O (∥ Φ^{j} (u^{k}) ∥)$

при $u^{k} \to \bar{u},$ для всех таких $j .$ Из этой оценки, из включения $A u^{k} \subset A \bar{u}$ и (0.3), с учетом локальной липшицевости $Φ$ и (1.13) вытекает, что при любом выборе $j \in A (u^{k})$

$Φ (u^{k} + v^{k}) = Φ (u^{k} + v^{k}) - Φ (\bar{u}) = O (∥ u^{k} + v^{k} - \bar{u} ∥) = o (∥ u^{k} - \bar{u} ∥)$

$= o (∥ Φ^{j} (u^{k}) ∥) = o (∥ Φ (u^{k}) ∥)$ (1.14)

при $u^{k} \to \bar{u} .$ Отсюда следует, что при достаточной близости $u^{k}$ к $\bar{u}$ имеет место

$∥ Φ (u^{k} + v^{k}) ∥ ⩽ (1 - ε) ∥ Φ (u^{k}) ∥,$

т. е. $α = 1$ принимается тестом (1.7) на шаге 3 алгоритма 1.

Таким образом, итерация алгоритма 1 в этом случае принимает вид итерации базового метода Ньютона для уравнения в (0.5) с соответствующим $j \in A (u^{k}) \subset A (\bar{u}),$ и утверждение о сверхлинейной сходимости ${u^{k}}$ к вытекает из (1.13). Детали см. в [5, теорема 2.2], где также приводится доказательство квадратичной скорости сходимости в случае липшицевости производных относительно которое легко распространяется на рассматриваемый здесь кусочно-гладкий случай, опять же с использованием конечности $A (\bar{u}) .$

Рис. 1. Пример 1.1

Роль предположения (0.6) в этом анализе демонстрируется следующим простым примером: в случаях, когда $A (u^{k})$ не является одноточечным, при нарушении (0.6) направления кусочного метода Ньютона могут не быть направлениями убывания для функции $∥ Φ (\cdot) ∥$ в точке $u^{k} .$

Пример 1.1. Рассмотрим нелинейную комплементарную задачу

$u ⩾ 0, F (u) ⩾ 0, ⟨ u, F (u) ⟩ = 0,$ (1.15)

с отображением $F : ℝ^{p} \to ℝ^{p} .$ Эта задача является частным случаем (0.2) при $l = m = 0,$ $r = p,$ $c (u) = u,$ $d (u) = F (u) .$ Эквивалентной переформулировкой (1.15) является (0.1) с кусочно-гладким $Φ (u) = \min {u, F (u)},$ где можно взять $P = ℝ^{p} .$

Пусть, например, $p = 1,$ $F (u) = - u - 2.$ Тогда естественные соответствующие кусочные отображения имеют вид $Φ^{1} (u) = u$ и $Φ^{2} (u) = - u - 2$ (см. графики на рис. 1a). В точке $u^{k} = - 1,$ которая не является решением (у задачи (1.15) с указанным $F$ вообще нет решений), выполняется $A (u^{k}) = {1, 2} .$ Если удовлетворяющее (0.4) отображение $G : ℝ \to ℝ$ выбрано так, что $G (u^{k}) = (Φ^{1})^{'} (u^{k}) = 1,$ то уравнение (1.1) принимает вид $- 1 + v = 0,$ т. е. $v^{k} = 1.$ Тогда для любого $α > 0$

$| Φ (u^{k} + α v^{k}) | = | \min {- 1 + α, 1 - α - 2} | = | \min {- 1 + α, - 1 - α} |$

$= | - 1 - α | = 1 + α > 1 = | Φ (u^{k}) | .$

Аналогично, если $G (u^{k}) = (Φ^{2})^{'} (u^{k}) = - 1,$ то уравнение (1.1) принимает вид $- 1 - v = 0,$ т. е. $v^{k} = - 1,$ и для любого $α > 0$

$| Φ (u^{k} + α v^{k}) | = | \min {- 1 - α, 1 + α - 2} | = | \min {- 1 - α, - 1 + α} |$

$= | - 1 - α | = 1 + α > 1 = | Φ (u^{k}) | .$

Таким образом, при любом допустимом выборе $G (u^{k})$ направление $v^{k}$ не является направлением убывания для $| Φ (\cdot) |$ в точке $u^{k},$ и, в частности, (1.7) не выполняется ни для какого $α > 0.$

Объяснение этого эффекта состоит в нарушении (0.6): если, например, $u > - 1,$ то

$| Φ^{1} (u) | = | u | < u + 2 = | - u - 2 | = | Φ (u) |,$

а для $u < - 1$ аналогичное неравенство выполняется с $Φ^{2}$ вместо $Φ^{1} .$

Заметим, что здесь $u^{k} = F (u^{k}) = - 1 < 0 :$ в точках $u ⩾ 0,$ в которых $F (u) ⩾ 0,$ неравенство из (0.6) для кусочно-гладкого $Φ$ из указанной переформулировки задачи (1.15) выполняется автоматически. См. обсуждение роли множества $P$ для выполнения (0.6) в конце введения.

Поскольку множество точек $u^{k} \in ℝ^{p},$ в которых $A (u^{k})$ содержит более одного индекса, обычно является тощим, то может возникнуть впечатление, что даже при нарушении (0.6) указанный эффект не должен создавать практических проблем: алгоритм не может сделать шаг только из таких точек $u^{k},$ попадание в которые является нетипичным исходом. Однако, это не так: для задачи из примера 1.1 из любого начального приближения алгоритм 1 сходится к точке $\bar{u} = - 1$ (обычно попадает точно в нее за один или два шага), выбраться из которой уже не может по причинам, указанным в этом примере. Несмотря на то, что в этой точке $\bar{u}$ (1.11) не выполняется ни для одного $j \in A (\bar{u}) = {1, 2},$ такой исход можно рассматривать как благоприятный, поскольку минимизирует невязку задачи (см. рис. 1a). Как показывает следующий пример, из широких областей начальных точек алгоритм 1 может генерировать бесконечные последовательности, сходящиеся к таким проблемным тощим множествам все более короткими шагами, и в итоге «застревающие» вблизи таких множеств, что в итоге приводит к неудачным запускам для практических реализаций алгоритма, причем предельные точки могут не быть точками минимума невязки.

Пример 1.2. Рассмотрим нелинейную комплементарную задачу (1.15) из [9, пример 6.1], с отображением $F : ℝ^{2} \to ℝ^{2},$ $F (u) = ({(u_{1} - 1)}^{2}, u_{1} + u_{2} + u_{2}^{2} - 1),$ и ее эквивалентную переформулировку (0.1) с $Φ (u) = \min {u, F (u)}$ и $P = ℝ^{2} .$

На рис. 2–4 синими точками показаны два решения $(0, (\sqrt{5} - 1) / 2)$ и данной задачи, а синие линии являются линиями уровня функции $∥ Φ (\cdot) ∥ .$ Красные линии соответствуют границам между областями активности разных гладких кусочных отображений, и, в частности, состоят из точек $u \in ℝ^{2},$ в которых $A (u)$ содержит более одного индекса.

Рис. 2. Пример 1.2: начальные точки, порождающие неудачные запуски

Запуск алгоритма 1 объявлялся неудачным в случаях, когда на шаге 3 алгоритма реализовывалось неравенство $α ∥ v^{k} ∥ ⩽ 10^{- 12} .$ Рис. 2, 3 демонстрируют начальные точки (которые выбирались случайным образом в области, изображенной на этих рисунках), запуски из которых были неудачыми в указанном смысле, для разных значений параметра $ε$ в тесте (1.7). Рис. 4 содержит некоторые примеры конкретных неудачных запусков.

Причиной такого поведения является существование точек $u \in P = ℝ^{2},$ в которых нарушаются какие-то из неравенств $u_{1} ⩾ 0,$ $u_{2} ⩾ 0,$ $u_{1} + u_{2} + u_{2}^{2} - 1 ⩾ 0,$ что приводит к невыполнению (0.6). Например, для естественных кусочных отображений $Φ^{1} (u) = (u_{1}, u_{2})$ и $Φ^{2} (u) = (u_{1}, u_{1} + u_{2} + u_{2}^{2} - 1)$ в точках $u = (1 - t - t^{2}, t)$ при $t < 0$ имеем: $Φ^{1} (u) = (1 - t - t^{2}, t),$ $Φ^{2} (u) = (1 - t - t^{2}, 0),$ причем если $t^{4} + 2 t^{3} + 2 t^{2} + t > 1,$ то $Φ (u) = Φ^{1} (u),$ и при этом $∥ Φ^{2} (u) ∥ < ∥ Φ (u) ∥ .$

Рис. 3. Пример 1.2: начальные точки, порождающие неудачные запуски

Рис. 4. Пример 1.2: некоторые неудачные запуски

Ситуация в примере 1.2 не сохраняется, если заменить $Φ$ в (1.7) на $Φ^{j},$ или заменить (1.7) на (1.9), для $j \in A (u^{k})$ такого, что $G (u^{k}) = (Φ^{j})^{'} (u^{k}) .$ Заметим, однако, что при нарушении (0.6) эти модификации не гарантируют выполнение (1.7), и при этом на них не распространяется приведенное в теореме 1.1 обоснование глобальной сходимости. Для задачи из примера 1.1 последовательность алгоритма с заменой $Φ$ в (1.7) на $Φ^{j}$ «скачет» между точками 0 и -2 где первая является нулем $Φ^{1}$ и, соответственно, минимизирует $φ_{1},$ а вторая является нулем $Φ^{2}$ и $φ_{2},$ но $Φ^{1}$ не является активным в точке 0, а $Φ^{2}$ — в точке -2 (см. рис. 1). Алгоритм с заменой (1.7) на (1.9) ведет себя аналогично, но также периодически «посещает» и точку -1.

2. Кусочный метод Гаусса–Ньютона

Возвращаясь к общей постановке задачи (0.1), для текущего приближения $u^{k} \in P$ кусочный метод Гаусса–Ньютона (с ограничением) генерирует следующее приближение как $u^{k} + v^{k},$ где $v^{k}$ минимизирует невязку (в квадрате) «линеаризованного» уравнения из (0.1) на $P - u^{k},$ а именно, $v^{k}$ определяется как решение задачи оптимизации

$\frac{1}{2} ∥ Φ (u^{k}) + G (u^{k}) v ∥^{2} \to \min, u^{k} + v \in P,$ (2.1)

где $G$ задается соотношениями (0.3) и (0.4). Целевая функция в (2.1) является выпуклой квадратичной функцией, и, согласно теореме Фрэнка–Вулфа [10], эта подзадача всегда имеет решение в случае полиэдрального $P,$ но решение может быть не единственным. Учитывая определение $G,$ подзадача (2.1) может быть записана в виде

$\frac{1}{2} ∥ Φ^{j} (u^{k}) + (Φ^{j})^{'} (u^{k}) v ∥^{2} \to \min, u^{k} + v \in P,$

с некоторым $j \in A (u^{k}),$ т. е. итерация такого метода есть итерация метода Гаусса–Ньютона для соответствующего гладкого уравнения с ограничением (0.5).

Следующий алгоритм реализует гибридную глобализацию сходимости кусочного метода Гаусса–Ньютона, основанную на объединении этого алгоритма в качестве локальной фазы с методом проекции градиента в качестве глобальной фазы, в духе [11, алгоритм 2.12] для метода Левенберга–Марквардта. Пусть $P$ выпукло, и через $π_{P} (u)$ обозначается проекция точки $u \in ℝ^{p}$ на $P .$

Алгоритм 2. Фиксируем параметры $ρ \in (0, 1),$ $\hat{α} > 0,$ $ε \in (0, 1)$ и $ϰ \in (0,1)$ Выбираем $u^{0} \in P$ и полагаем $k = 0.$

Если $Φ (u^{k}) = 0,$ стоп.
Вычисляем $v^{k}$ как некоторое решение задачи (2.1). Если $v^{k}$ не удается вычислить, переходим к шагу 4.
Если

$∥ Φ (u^{k} + v^{k}) ∥ ⩽ ρ ∥ Φ (u^{k}) ∥,$ (2.2)

полагаем $u^{k + 1} = u^{k} + v^{k},$ увеличиваем к на 1 и переходим к шагу 1.

Для $j \in A (u^{k})$ такого, что $G (u^{k}) = (Φ^{j})^{'} (u^{k})$ (см. (0.4)), полагаем $v^{k} = - φ_{j^{'}} (u^{k}),$ где функция $φ_{j}$ определена в (1.3) (см. (1.4)). Если $π_{P} (u^{k} - \hat{α} v^{k}) = u^{k},$ стоп.
Полагаем $α = \hat{α} .$ Если выполняется неравенство Армихо

$φ_{j} (π_{P} (u^{k} - α v^{k})) ⩽ φ_{j} (u^{k}) + ε ⟨ φ_{j^{'}} (u^{k}), π_{P} (u^{k} - α v^{k}) - u^{k} ⟩,$ (2.3)

полагаем $α_{k} = α .$ В противном случае заменяем $α$ на $ϰ α$ и проверяем снова неравенство (2.3) до тех пор, пока оно не выполнится, после чего полагаем $α_{k} = α .$

Полагаем $u^{k + 1} = π_{P} (u^{k} - α_{k} v^{k}),$ увеличиваем к на 1 и переходим к шагу 1.

Следующий результат обобщает [8, теорема 1.16] (оно же [12, предложение 1.2.6] с градиентных методов безусловной оптимизации на методы проекции градиента. Его обоснование получается по сути повторением доказательства в [12, предложение 2.3.3 (b)] для соответствующей подпоследовательности.

Предложение 2.1. Пусть $P \subset ℝ^{p}$ — замкнутое выпуклое множество, а $φ : ℝ^{p} \to ℝ$ — непрерывно дифференцируемая на Р функция. Пусть последовательность ${u^{k}} \subset ℝ^{p}$ такова, что для некоторой ее бесконечной подпоследовательности ${u^{k_{i}}} \subset P$ последовательность ${\dots φ (u^{k_{i}}), φ (u^{k_{i} + 1}), \dots}$ монотонно невозрастает. Пусть, кроме того, $\hat{α} > 0,$ $ε \in (0, 1)$ и $ϰ \in (0,1)$ фиксированы, и для каждого $i$ точка $u^{k_{i} + 1}$ получена шагом метода проекции градиента с выбором параметра длины шага по правилу Армихо, а именно, $u^{k_{i} + 1} = π_{P} (u^{k_{i}} - α_{k_{i}} φ^{'} (u^{k_{i}})),$ где $α_{k_{i}}$ есть $α = ϰ^{r} \hat{α}$ с минимальным $r \in {0, 1, \dots},$ для которого выполняется

$φ (π_{P} (u^{k_{i}} - α φ^{'} (u^{k_{i}}))) ⩽ φ (u^{k_{i}}) + ε ⟨ φ^{'} (u^{k_{i}}), π_{P} (u^{k_{i}} - α φ^{'} (u^{k_{i}})) - u^{k_{i}} ⟩ .$

Тогда любая предельная точка $\bar{u}$ подпоследовательности ${u^{k_{i}}}$ стационарна в задаче оптимизации

$φ (u) \to \min, u \in P,$

т. е. $\bar{u} \in P$ и

$⟨ φ^{'} (\bar{u}), u - \bar{u} ⟩ ⩾ 0 \forall u \in P,$

что равносильно выполнению равенства

$π_{P} (\bar{u} - t φ^{'} (\bar{u})) = \bar{u}$

для некоторого $t > 0,$ а значит и для любого $t > 0.$

Теорема 2.1. Пусть $Φ : ℝ^{p} \to ℝ^{p}$ — кусочно-гладкое отображение с непрерывнодифференцируемыми кусочными отображениями $Φ^{1}, \dots, Φ^{s} .$ Пусть для $P \subset ℝ^{p}$ —выпуклое замкнутое множество, причем выполняется предположение (0.6). Пусть $G : ℝ^{p} \to ℝ^{q \times p}$ — любое отображение, удовлетворяющее (0.4).

Тогда алгоритм 2 либо останавливается в точке $u^{k} \in P,$ удовлетворяющей

$⟨ {((Φ^{j})^{'} (u^{k}))}^{⊤} Φ (u^{k}), u - u^{k} ⟩ ⩾ 0 \forall u \in P$ (2.4)

по крайней мере для одного $j \in A (u^{k}),$ либо генерирует бесконечную последовательность ${u^{k}},$ любая предельная точка $\bar{u}$ которой лежит в Р и удовлетворяет

$⟨ {((Φ^{j})^{'} (\bar{u}))}^{⊤} Φ (\bar{u}), u - \bar{u} ⟩ ⩾ 0 \forall u \in P$ (2,5)

по крайней мере для одного $j \in A (\bar{u}) .$

Доказательство. Согласно (1.4), алгоритм может остановиться на некоторой итерации к только если либо $u^{k} \in P$ удовлетворяет $Φ (u^{k}) = 0,$ либо выполняется (2.4) для некоторого $j \in A (u^{k}),$ причем в первом случае, согласно (0.3), $Φ^{j} (u^{k}) = Φ (u^{k}) = 0,$ и (2.4) тоже выполняется (как равенство, для любого $j \in A (u^{k})$ ).

Вместе с тем, если (2.4) не выполняется для $j \in A (u^{k})$ такого, что $G (u^{k}) = (Φ^{j})^{'} (u^{k}),$ то либо на шаге 3 алгоритма 1 принимается шаг метода Гаусса–Ньютона (т. е. для соответствующего $v^{k}$ выполняется (2.2)), либо, согласно [12, предложение 2.3.3 (a)], на шаге 5 алгоритма подходящее значение $α_{k} > 0$ будет найдено после конечного числа дроблений, а значит, алгоритм успешно определит $u^{k + 1} \in P .$

Пусть теперь (2.4) не выполняется для $j \in A (u^{k})$ такого, что $G (u^{k}) = (Φ^{j})^{'} (u^{k}),$ ни для какого к а значит, алгоритм генерирует бесконечную последовательность $u^{k} \subset P .$ Из (0.3), (0.6) и из (2.2), (2.3) при этом вытекает монотонное невозрастание последовательности ${∥ Φ (u^{k}) ∥} .$ Но тогда, если (2.2) выполняется для бесконечного количества номеров к то эта последовательность стремится к 0 и поэтому, с учетом замкнутости Р всякая предельная точка $\bar{u}$ последовательности $u^{k} \subset P$ является решением (0.1), а значит, в частности, удовлетворяет (2.5) (как равенству, для любого $j \in A (\bar{u})$ ).

Остается рассмотреть случай, когда (2.2) не выполняется ни для какого достаточно большого к т. е. каждая итерация алгоритма 1, начиная с некоторой, является шагом метода проекции градиента для задачи оптимизации

$φ_{j} (u) \to \min, u \in P,$

с некоторым $j \in A (u^{k})$ таким, что $G (u^{k}) = (Φ^{j})^{'} (u^{k}) .$ Для любой предельной точки $\bar{u}$ последовательности ${u^{k}},$ в силу включения $A u \subset A \bar{u}$ для всех $u \in ℝ^{p}$ достаточно близких к $\bar{u},$ и в силу конечности множества $A (\bar{u}),$ a также с учетом (0.4), найдется сходящаяся к $\bar{u}$ подпоследовательность ${u^{k_{i}}}$ такая, что $G (u^{k_{i}}) = (Φ^{j})^{'} (u^{k_{i}})$ для всех $i,$ для некоторого фиксированного $j \in A (\bar{u}) .$

В силу (0.6) и (2.3), поскольку последовательность ${∥ Φ (u^{k}) ∥}$ монотонно невозрастает, снова выводим цепочку неравенств (1.12), откуда следует, что последовательность ${\dots φ_{j} (u^{k_{i}}), φ_{j} (u^{k_{i} + 1}), \dots}$ монотонно невозрастает. Остается воспользоваться предложением 2.1, согласно которому $\bar{u} \in P$ и

$⟨ φ_{j^{'}} (\bar{u}), u - \bar{u} ⟩ ⩾ 0 \forall u \in P,$

что, согласно (0.3) и (1.4), и есть (2.5).

Следующая теорема устанавливает сверхлинейную скорость сходимости алгоритма 2 в случае $p = q,$ $P = ℝ^{p} .$

Теорема 2.2. Теорема 1.2 остается справедливой, если алгоритм 1 в ней заменить на алгоритм 2.

Доказательство. Из рассуждений в доказательстве теоремы 1.2 вытекает, что в предположениях этой теоремы алгоритм 2 локально (для $u^{k}$ достаточно близкого к $\bar{u}$ ) генерирует то же самое $u^{k + 1},$ что и алгоритм 1: в силу (1.14), тест (2.2) на шаге 3 алгоритма 2 при этом выполняется, а итерационная подзадача (2.1) кусочного метода Гаусса–Ньютона эквивалентна итерационному уравнению (1.1) кусочного метода Ньютона. Это дает требуемое.

Интересный вопрос состоит в возможности получения результатов о сверхлинейной скорости сходимости для алгоритма 2 при $p = q,$ или при $P = ℝ^{p} .$ Если решения могут быть неизолированы (что естественным образом реализуется при $p > q$ ), в предположении о естественных предположениях о выполнении локальной липшицевой оценки расстояния до множества решений с этим вопросом нет полной ясности даже в случае $P = ℝ^{p}$ и гладкого $Φ .$ Точнее, известные результаты о локальной квадратичной сходимости метода Гаусса–Ньютона [13] (даже при выборе единственного решения подзадачи (2.1) минимальной нормы) основаны на ограничительных формах оценок расстояния, и на требованиях на поведение сингулярных чисел производной, необходимость которых в этом анализе даже при $p = q$ и $P = ℝ^{p}$ демонстрируется в [13, пример 4.5]. Результаты такого рода в случае $P = ℝ^{p}$ даже при $p = q$ авторам не известны.

About the authors

Dmitriy I. Dorovskikh

Lomonosov Moscow State University

Author for correspondence.
Email: deamterr@gmail.com

Student, Operations Research Department

Russian Federation, 1 Leninskiye Gory, Moscow 119991

Alexey F. Izmailov

Lomonosov Moscow State University

Email: izmaf@cs.msu.ru

Doctor of Physical and Mathematical Sciences, Professor of the Operations Research Department

Russian Federation, 1 Leninskiye Gory, Moscow 119991

Evgeniy I. Uskov

Derzhavin Tambov State University

Email: euskov@cs.msu.ru

Researcher

Russian Federation, 33 Internatsionalnaya St., Tambov 392000

References

W. W. Hager, “Lipschitz continuity for constrained processes”, SIAM J. on Control and Optimization, 17 (1979), 321–338.
A. F. Izmailov, E. I. Uskov, Yan Zhibai, “The piecewise Levenberg–Marquardt method”, Advances in System Sciences and Applications, 2024 (to appear).
A. Fischer, M. Herrich, A. F. Izmailov, M. V. Solodov, “A globally convergent LP-Newton method”, SIAM J. on Optimization, 26 (2016), 2012–2033.
A. Fischer, A. F. Izmailov, M. Jelitte, “Newton-type methods near critical solutions of piecewise smooth nonlinear equations”, Computational Optimization and Applications, 80 (2021), 587–615.
A. F. Izmailov, M. V. Solodov, Newton-Type Methods for Optimization and Variational Problems, Springer Series in Operations Research and Financial Engineering, Springer, Cham, 2014.
А. Ф. Измаилов, М. В. Солодов, Численные методы оптимизации, 2-е изд., перераб. и доп., Физматлит, М., 2008 [A. F. Izmailov, M. V. Solodov, Numerical Optimization Methods, 2nd ed., revised. and additional, Fizmatlit, Moscow, 2008 (In Russian)].
A. Fischer, A. F. Izmailov, M. V. Solodov, “Accelerating convergence of the globalized Newton method to critical solutions of nonlinear equations”, Computational Optimization and Applications, 78 (2021), 273–286.
Д. Бертсекас, Условная оптимизация и методы множителей Лагранжа, Радио и связь, М., 1987; англ. пер.: D. P. Bertsekas, Constrained Optimization and Lagrange Multiplier Methods, Athena, Belmont, 1996.
A. N. Daryina, A. F. Izmailov, M. V. Solodov, “A class of active-set newton methods for mixed complementarity problems”, SIAM J. on Optimization, 15 (2004), 409–429.
M. Frank, P. Wolfe, “An algorithm for quadratic programming”, Naval Research Logistics Quarterly, 3 (1956), 95–110.
C. Kanzow, N. Yamashita, M. Fukushima, “Levenberg–Marquardt methods with strong local convergence properties for solving nonlinear equations with convex constraints”, J. of Computational and Applied Mathematics, 172 (2004), 375–397.
D. P. Bertsekas, “Nonlinear Programming, 2nd ed., Athena, Belmont, 1999.
R. Behling, The Method and the Trajectory of Levenberg–Marquardt, PhD Thesis, IMPA — Instituto Nacional de Matemática Pura e Aplicada, Rio de Janeiro, Brazil https://impa.br/wp-content/uploads/2017/08/tese_dout_roger_behling.pdf, 2011.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

2. Figure 1. Example 1.1.

Download (23KB)

Indexing metadata

3. Fig. 2. Example 1.2: initial points generating failed launches

Download (60KB)

Indexing metadata

4. Fig. 3. Example 1.2: initial points generating failed launches

Download (41KB)

Indexing metadata

5. Fig. 4. Example 1.2: some failed launches

Download (43KB)

Indexing metadata

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register

Vol 30, No 150 (2025)

Vol 30, No 150 (2025)

Globalizing convergence of piecewise Newton methods

Full Text

Abstract

Keywords

Full Text

Введение

1. Кусочный метод Ньютона

2. Кусочный метод Гаусса–Ньютона

About the authors

Dmitriy I. Dorovskikh

Alexey F. Izmailov

Evgeniy I. Uskov

References

Supplementary files