Polyak’s Method Based on the Stochastic Lyapunov Function for Justifying the Consistency of Estimates Produced by a Stochastic Approximation Search Algorithm under an Unknown-But-Bounded Noise
- Авторлар: Granichin O.N.1,2, Ivansky Y.V.1,2, Kopylova K.D.1
-
Мекемелер:
- Saint Petersburg State University
- Mechanical Engineering Research Institute, Russian Academy of Sciences
- Шығарылым: Том 64, № 4 (2024)
- Беттер: 627-636
- Бөлім: Optimal control
- URL: https://ogarev-online.ru/0044-4669/article/view/269967
- DOI: https://doi.org/10.31857/S0044466924040034
- EDN: https://elibrary.ru/ZKKRRX
- ID: 269967
Дәйексөз келтіру
Толық мәтін
Аннотация
In 1976–1977, Polyak published in the journal Avtomatica i Telemekhanika (Automation and Remote Control) two remarkable papers on how to study the properties of estimates of iterative pseudogradient algorithms. The first paper published in 1976 considered the general case based on the stochastic Lyapunov function, and the second one considered the linear case. The assumptions formulated in these papers and the estimates obtained in them can still be considered the state-of-the art. In the current paper, Polyak’s approach is applied to the study of the properties of estimates of a (randomized) stochastic approximation search algorithm for the case of unknown-but-bounded noise in observations. The obtained asymptotic estimates were already known earlier, and exact estimates for a finite number of observations are published for the first time.
Толық мәтін
ВВЕДЕНИЕ
Решение задач оптимизации часто сводится к нахождению точки экстремума некоторой функции. При этом принято полагаться на использование известных итерационных процедур, использующих значения исследуемой функции в выбираемых последовательно точках. Наличие помех при измерениях оказывает существенное влияние на результат. Для практики важно предложить такую итерационную схему, которая как можно более быстрая (по количеству итераций), простая (по сложности, требуемым ресурсам и времени выполнения одной итерации) и работоспособная при почти произвольных помехах. Именно такого типа процедуры были предложены в [1]–[3], основная идея которых состоит в решении сложных многомерных (в пространстве ) задач оптимизации методами, похожими на процедуру Кифера–Вольфовица, но использующими на каждой итерации для формирования новой градиентной аппроксимации вместо 2d-измерений целевой функции только одно или два измерения в точках на случайно выбираемой линии, проходящей через точку предыдущей оценки. В статье 1989 г. [1] была предложена новая стохастическая рекуррентная процедура с одним измерением на итерации с пробными возмущениями на входе, для которой была обоснована состоятельность оценок при почти произвольных зависимых помехах в наблюдениях. Позже этот результат был распространен на векторный случай (см. [4]–[6]). В 1990 г. в статье Б. Т. Поляка и А. Б. Цыбакова [2] такого типа алгоритмы получили название поисковые алгоритмы стохастической аппроксимации, и для них при достаточно общих условиях была доказана асимптотическая оптимальность в том смысле, что для класса близких функций невозможно предложить итеративный алгоритм, который будет асимптотически сходится быстрее. Похожий алгоритм в англоязычной литературе под называнием метод SPSA (Simultaneously Perturbed Stochastic Approximation) в варианте с двумя измерениями был предложен в 1992 г. в статье [3] и с одним измерением — в [7]. Позднее в 1999 г. в статье [8] был обоснован новый алгоритм с двумя измерениями, в одном из которых измерение псевдоградиента проводилось в возмущенной точке, а в другом — в точке предшествующей оценки без возмущения. Такая версия лучше подходит для оптимизации в реальном времени, когда данные поступают в обновляющемся потоке. Основная идея метода состоит в решении сложных многомерных (в пространстве ) задач методами, похожими на процедуру Кифера–Вольфовица, но используя на каждой итерации для формирования одной градиентной аппроксимации вместо 2d-измерений целевой функции только одно или два измерения в точках на случайно выбираемой линии, проходящей через точку предыдущей оценки.
В последнее время подобного рода алгоритмы привлекают внимание исследователей (см., например, [9], [10]). Их часто стали называть безградиентными методами с неточным оракулом. В 2023 г. вышла статья [11], развивающая идеи из [5]. Алгоритм, рассматриваемый в этой статье, был первоначально предложен в [12] для нахождения центров восходящих термических потоков, используемых для увеличения длительности полетов БПЛА планерного типа. При исследовании скорости сходимости оценок ключевую роль играет способ формирования размеров шагов алгоритмов. В статье [13] этот алгоритм с постоянными размерами шага использовался для решения задачи трекинга. На практике с течением времени вид исследуемой функции может несколько видоизменяться, и точки экстремумов могут дрейфовать со временем. В зависимости от скорости дрейфа и уровня помех в измерениях выбор постоянного большего размера шага алгоритма на итерации может давать более высокую скорость сходимости, но только в некоторую окрестность текущей точки экстремума, при малом постоянном размере шага оценки сходятся медленнее, но результаты точнее при отсутствии дрейфа. Важно, чтобы за время сходимости искомая точка экстремума не отдрейфовала далеко. Если нет возможности сходиться точно, есть возможность сойтись быстрее. Например, в задачах слежения за маневрирующими целями не так важно, чтобы оценки точно сошлись к искомому решению, как важно успеть отслеживать дрейф точки минимума (точность отходит на второй план, важнее становится скорость сходимости). Для задач распределенной оптимизации (в частности, распределенного отслеживания целей) в [14] была предложена модификация алгоритма, совмещенная с консенсусным протоколом локального голосования. В [15] показаны возможности ускорения сходимости по Нестерову, основанные на использовании метода тяжелого шарика Б. Т. Поляка (см. [16]).
Детальный вклад известных работ Б. Т. Поляка в развитие численных методов оптимизации анализируется в [17].
Далее в настоящей статье свойства оценок алгоритма из [13] анализируются на основе использования стохастической функции Ляпунова, опираясь на результаты статьи [18], в которой Б. Т. Поляк предложил и обосновал метод на основе стохастической функции Ляпунова для исследования свойств оценок псевдоградиентных итеративных алгоритмов стохастической оптимизации (см. также [6], гл. 5).
ПОСТАНОВКА ЗАДАЧИ, АЛГОРИТМ И ОСНОВНЫЕ ПРЕДПОЛОЖЕНИЯ
Пусть x1, x2, ... — последовательность точек измерения (план наблюдения, выбираемый или контролируемый экспериментатором), , в которых в каждый момент времени n = 1, 2, ... доступно наблюдению с помехами vn значение некоторой дифференцируемой по xn штрафной функции (функции потерь) F (xn, wn):
, (1)
где , {wn} — неконтролируемая последовательность p-мерных случайных векторов wn (возмущений) с одинаковым (может быть) неизвестным распределением Pw(·) с компактным носителем .
Рассмотрим задачу минимизации функции
. (2)
Здесь и далее — символ математического ожидания.
Задача: по доступным наблюдениям необходимо построить последовательность оценок неизвестного вектора θ, минимизирующего функцию .
Для решения поставленной задачи воспользуемся итеративным алгоритмом из [13] с двумя измерениями.
Алгоритм: выберем произвольный вектор начальной оценки , и для выбираемых или задаваемых последовательностей положительных чисел и с помощью пробного одновременного возмущения {∆n} определим шаг итерации:
(3)
где ∆n, n = 1, 2, ... — наблюдаемая (задаваемая или контролируемая пользователем) последовательность независимых случайных векторов из с известными функциями распределения Pn(·), — задаваемые пользователем вектор-функции (ядра), удовлетворяющие вместе с Pn(·) условиям
, (4)
. (5)
Следующие предположения будут использоваться для формулировки основного результата.
Предположение 1. Функция f(·) — сильно выпуклая, т. е. имеет единственный минимум в в некоторой точке θ = θ(f(·)) и
с некоторой постоянной μ > 0. Здесь и далее — скалярное произведение .
Предположение 2. Условие Липшица на градиент функции F(·, w)
с некоторой постоянной .
Предположение 3. функции F(x, ·) и ∇xF(x, ·) равномерно на ограничены.
Пусть .
Предположение 4. О равномерной ограниченности помех наблюдения :
∀n ≥ 1, если случайно, то , иначе ограничены: .
Предположение 5. Условия о взаимной независимости помех , возмущений и пробных возмущений ∆n:
∀n ≥ 1 случайный вектор ∆n не зависит от , случайные векторы , ∆n не зависят от ; если — случайные величины, то , ∆n также не зависят от .
АНАЛИЗ СХОДИМОСТИ ПОСЛЕДОВАТЕЛЬНОСТИ ОЦЕНОК
Для анализа сходимости оценок алгоритма (3) используется метод из [18], аналогичный второму методу Ляпунова в теории устойчивости. В качестве функции Ляпунова выберем
. (6)
Перечислим основные условия теорем 1—3 из [18], выполнение которых надо проверить.
Условие А. Итеративный процесс Yn, задающий направление изменения оценки, имеет марковский характер, т. е. распределение случайного вектора Yn зависит только от и n:
.
Для алгоритма (3) имеем
.
Условие Б. — неотрицательна, — дифференцируема, а ее градиент удовлетворяет условию Липшица:
.
Условие В. Условие псевдоградиентности:
.
Для алгоритма (3) с учетом выбранной в виде (6) функции Ляпунова получается следующее выражение:
.
Учитывая вид y2n, y2n–1 и x2n, x2n–1, перепишем в виде
.
Так как в силу предположения 5 вектор ∆n не зависит от vn, то
.
Далее из (4) следует, что первый сомножитель в последней формуле равен нулю, а значит, и
.
Следовательно,
. (7)
Воспользовавшись дважды формулой Тейлора, перепишем выражение под знаком математического ожидания:
Оценим два слагаемых с интегралами по модулю:
(8)
Подставляем получившееся в (8) выражение в (7):
,
Так как
,
то
(9)
Условие Г. Условие на Gn(·, ·):
.
Учитывая ограниченность вектор-функций и компактность их носителя, последовательно выводим
(10)
использовав ограниченность вектор-функций , компактность их носителя и неравенство
где Ci, i = 1, 2, ... — некоторые положительные константы.
Для разности применим дважды формулу Тейлора:
(11)
Добавив и отняв и , получаем
(12)
Оценим скалярные произведения
В итоге получаем оценку для (12):
Подставив получившуюся оценку в (10), последовательно выводим
(13)
в силу ограниченности и компактности их носителя. Распишем разность
(14)
в виде
.
Добавив и отняв и , получаем
Оценим скалярные произведения:
Получили оценку для (14) в виде
Подставим получившееся выражение в (13):
(15)
Введем обозначения:
Так как
то
.
После подстановки в (15) получаем оценку
в силу компактности носителя , равномерной ограниченности функции F и ∇F.
Условие Д. Условие на начальное приближение выполнено.
Для формулировки основного результата статьи надо ввести ограничения на последовательность {αn}. Пусть αn удовлетворяет ограничениям
(16)
Введем обозначения:
Условие Е. .
При выборе αn, удовлетворяющих ограничениям (16), условие Е выполняется.
Проведенный анализ доказывает следующую теорему, являющуюся прямым следствием теорем 1—3 из [18].
Теорема. Пусть выполняются предположения 1–5 и условия (4), (5) и (16).
Если , тогда . Если при этом ψn ≤ ψ для всех n, то
.
Если ψn → 0, тогда .
Если, кроме того,
а) , то
;
б) λn ≤ λ < 1 для всех n, то
;
в) , то
;
г) для всех n, то
.
Если , тогда c вероятностью единица.
При этом для всякого ε > 0, n0 ≥ 0 имеем
,
где P(·) обозначает вероятность.
Если, кроме того, ,
то для всякого K > 0 найдется такое , что
,
а если для всех n, то
.
ЗАКЛЮЧЕНИЕ
Борисом Теодоровичем Поляком в 70-е годы XX в. были получены результаты, которые до сих пор активно используются исследователями. В настоящей статье на основании теорем 1—3 из статьи [18] получены новые результаты о свойствах оценок алгоритма (3), расширяющие ранее установленные в [6] асимптотические свойства оценок, добавляя к ним оценки точности при конечном числе итераций.
Авторлар туралы
O. Granichin
Saint Petersburg State University; Mechanical Engineering Research Institute, Russian Academy of Sciences
Хат алмасуға жауапты Автор.
Email: oleg_granichin@mail.ru
Ресей, Saint Petersburg; Saint Petersburg
Yu. Ivansky
Saint Petersburg State University; Mechanical Engineering Research Institute, Russian Academy of Sciences
Email: oleg_granichin@mail.ru
Ресей, Saint Petersburg; Saint Petersburg
K. Kopylova
Saint Petersburg State University
Email: oleg_granichin@mail.ru
Ресей, Saint Petersburg
Әдебиет тізімі
- Граничин О. Н. Об одной стохастической рекуррентной процедуре при зависимых помехах в наблюдении, использующей на входе пробные возмущения // Вест. Ленингр. ун-та. 1989. Т. 1. № 1. С. 19—21.
- Поляк Б. Т., Цыбаков А. Б. О некоторых способах ускорения сходимости итерационных методов // Пробл. передачи информ. 1990. Т. 26. № 2. С. 126—133.
- Spall J. C. Multivariate stochastic approximation using a simultaneous perturbation gradient approximation// IEEE Trans. Autom. Control. 1992. V. 37. Iss. 6. P. 332—341.
- Граничин О. Н. Процедура стохастической аппроксимации с возмущением на входе // Автоматика и телемехан. 1992. № 2. C. 97—104.
- Polyak B. T., Tsybakov A. B. On stochastic approximation with arbitrary noise (the KW-case) // Adv. Sov. Math. 1992. V. 12. Iss. 8.
- Граничин О. Н., Поляк Б. Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. М.: Наука, 2003.
- Spall J. C. A one-measurement form of simultaneous perturbation stochastic approximation // Automatica. 1997. V. 33. Iss. 1. P. 109—112.
- Chen H., Duncan T. E., Pasik-Duncan B. A Kiefer-Wolfowitz algorithm with randomized differences // IEEE Trans. Autom. Control. 1999. V. 44. Iss. 3. P. 442—453.
- Lobanov A., Gasnikov A., Stonyakin F. Highly smoothness zero-order methods for solving optimization problems under PL condition // arXiv preprint arXiv:2305.15828; 2023.
- Dvinskikh D., Tominin V., Tominin Y., Gasnikov A. Gradient-free optimization for non-smooth saddle point problems under adversarial noise // arXiv preprint arXiv:2202.06114; 2022.
- Akhavan A., Chzhen E., Pontil M., Tsybakov A. B. Gradient-free optimization of highly smooth functions: improved analysis and a new algorithm // arXiv preprint arXiv:2306.02159; 2023.
- Antal C., Granichin O. N., Levi S. Adaptive autonomous soaring of multiple UAVs using simultaneous perturbation stochastic approximation // 49th IEEE Conf. on Decision and Control (CDC), 2010. P. 3656—3661.
- Granichin O., Amelina N. Simultaneous perturbation stochastic approximation for tracking under unknown but bounded disturbances // IEEE Trans. Autom. Control. 2015. V. 60. Iss. 6. P. 1653—1658.
- Granichin O. N., Erofeeva V. A., Ivanskiy Y. V., Jiang Y. Simultaneous perturbation stochastic approximation-based consensus for tracking under unknown-but-bounded disturbances // IEEE Trans. Autom. Control. 2021. V. 66. Iss. 8. P. 3710—3717.
- Erofeeva V. А., Granichin O. N., Tursunova M., Sergeenko A., Jiang Y. Accelerated simultaneous perturbation stochastic approximation for tracking under unknown-but-bounded disturbances // Am. Control Conf. (ACC) 2022. P. 1582—1587.
- Поляк Б. Т. О некоторых способах ускорения сходимости итерационных методов // Ж. вычисл. матем. и матем. физ. 1964. Т. 4. № 5. С. 791—803.
- Аблаев С. С., Безносиков А. Н., Гасников А. В., Двинских Д. М., Лобанов A. B., Пучинин C. М., Стонякин Ф. С. О некоторых работах Бориса Теодоровича Поляка по сходимости градиентных методов и их развитии // Ж. вычисл. матем. и матем. физ. 2024. Т. 64. № 4. С. 25–64.
- Поляк Б. Т. Сходимость и скорость сходимости итеративных стохастических алгоритмов. I. Общий случай // Автоматика и телемехан. 1976. № 12. С. 83—94.
Қосымша файлдар
