Метод Б. Т. Поляка на основе стохастической функции Ляпунова для обоснования состоятельности оценок поискового алгоритма стохастической аппроксимации при неизвестных, но ограниченных помехах
- Авторы: Граничин О.Н.1,2, Иванский Ю.В.1,2, Копылова К.Д.1
-
Учреждения:
- СПбГУ
- ИПМаш РАН
- Выпуск: Том 64, № 4 (2024)
- Страницы: 627-636
- Раздел: ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ
- URL: https://ogarev-online.ru/0044-4669/article/view/269967
- DOI: https://doi.org/10.31857/S0044466924040034
- EDN: https://elibrary.ru/ZKKRRX
- ID: 269967
Цитировать
Полный текст
Аннотация
В 1976–1977 гг. Б.Т. Поляк опубликовал в журнале «Автоматика и телемеханика» две замечательные статьи о том, как исследовать свойства оценок итеративных псевдоградиентных алгоритмов. В первой статье 1976 г. рассматривался общий случай на основе стохастической функции Ляпунова, во второй — линейный случай. Сформулированные предположения и полученные в статьях оценки до сих пор можно считать результатами уровня «state of the art». В настоящей статье этот ставший классическим подход Б.Т. Поляка применяется к исследованию свойств оценок поискового (рандомизированного) алгоритма стохастической аппроксимации для случая неизвестных, но ограниченных помех в наблюдениях. Полученные асимптотические оценки были известны уже и ранее, точные оценки для конечного числа наблюдений публикуются впервые.
Полный текст
ВВЕДЕНИЕ
Решение задач оптимизации часто сводится к нахождению точки экстремума некоторой функции. При этом принято полагаться на использование известных итерационных процедур, использующих значения исследуемой функции в выбираемых последовательно точках. Наличие помех при измерениях оказывает существенное влияние на результат. Для практики важно предложить такую итерационную схему, которая как можно более быстрая (по количеству итераций), простая (по сложности, требуемым ресурсам и времени выполнения одной итерации) и работоспособная при почти произвольных помехах. Именно такого типа процедуры были предложены в [1]–[3], основная идея которых состоит в решении сложных многомерных (в пространстве ) задач оптимизации методами, похожими на процедуру Кифера–Вольфовица, но использующими на каждой итерации для формирования новой градиентной аппроксимации вместо 2d-измерений целевой функции только одно или два измерения в точках на случайно выбираемой линии, проходящей через точку предыдущей оценки. В статье 1989 г. [1] была предложена новая стохастическая рекуррентная процедура с одним измерением на итерации с пробными возмущениями на входе, для которой была обоснована состоятельность оценок при почти произвольных зависимых помехах в наблюдениях. Позже этот результат был распространен на векторный случай (см. [4]–[6]). В 1990 г. в статье Б. Т. Поляка и А. Б. Цыбакова [2] такого типа алгоритмы получили название поисковые алгоритмы стохастической аппроксимации, и для них при достаточно общих условиях была доказана асимптотическая оптимальность в том смысле, что для класса близких функций невозможно предложить итеративный алгоритм, который будет асимптотически сходится быстрее. Похожий алгоритм в англоязычной литературе под называнием метод SPSA (Simultaneously Perturbed Stochastic Approximation) в варианте с двумя измерениями был предложен в 1992 г. в статье [3] и с одним измерением — в [7]. Позднее в 1999 г. в статье [8] был обоснован новый алгоритм с двумя измерениями, в одном из которых измерение псевдоградиента проводилось в возмущенной точке, а в другом — в точке предшествующей оценки без возмущения. Такая версия лучше подходит для оптимизации в реальном времени, когда данные поступают в обновляющемся потоке. Основная идея метода состоит в решении сложных многомерных (в пространстве ) задач методами, похожими на процедуру Кифера–Вольфовица, но используя на каждой итерации для формирования одной градиентной аппроксимации вместо 2d-измерений целевой функции только одно или два измерения в точках на случайно выбираемой линии, проходящей через точку предыдущей оценки.
В последнее время подобного рода алгоритмы привлекают внимание исследователей (см., например, [9], [10]). Их часто стали называть безградиентными методами с неточным оракулом. В 2023 г. вышла статья [11], развивающая идеи из [5]. Алгоритм, рассматриваемый в этой статье, был первоначально предложен в [12] для нахождения центров восходящих термических потоков, используемых для увеличения длительности полетов БПЛА планерного типа. При исследовании скорости сходимости оценок ключевую роль играет способ формирования размеров шагов алгоритмов. В статье [13] этот алгоритм с постоянными размерами шага использовался для решения задачи трекинга. На практике с течением времени вид исследуемой функции может несколько видоизменяться, и точки экстремумов могут дрейфовать со временем. В зависимости от скорости дрейфа и уровня помех в измерениях выбор постоянного большего размера шага алгоритма на итерации может давать более высокую скорость сходимости, но только в некоторую окрестность текущей точки экстремума, при малом постоянном размере шага оценки сходятся медленнее, но результаты точнее при отсутствии дрейфа. Важно, чтобы за время сходимости искомая точка экстремума не отдрейфовала далеко. Если нет возможности сходиться точно, есть возможность сойтись быстрее. Например, в задачах слежения за маневрирующими целями не так важно, чтобы оценки точно сошлись к искомому решению, как важно успеть отслеживать дрейф точки минимума (точность отходит на второй план, важнее становится скорость сходимости). Для задач распределенной оптимизации (в частности, распределенного отслеживания целей) в [14] была предложена модификация алгоритма, совмещенная с консенсусным протоколом локального голосования. В [15] показаны возможности ускорения сходимости по Нестерову, основанные на использовании метода тяжелого шарика Б. Т. Поляка (см. [16]).
Детальный вклад известных работ Б. Т. Поляка в развитие численных методов оптимизации анализируется в [17].
Далее в настоящей статье свойства оценок алгоритма из [13] анализируются на основе использования стохастической функции Ляпунова, опираясь на результаты статьи [18], в которой Б. Т. Поляк предложил и обосновал метод на основе стохастической функции Ляпунова для исследования свойств оценок псевдоградиентных итеративных алгоритмов стохастической оптимизации (см. также [6], гл. 5).
ПОСТАНОВКА ЗАДАЧИ, АЛГОРИТМ И ОСНОВНЫЕ ПРЕДПОЛОЖЕНИЯ
Пусть x1, x2, ... — последовательность точек измерения (план наблюдения, выбираемый или контролируемый экспериментатором), , в которых в каждый момент времени n = 1, 2, ... доступно наблюдению с помехами vn значение некоторой дифференцируемой по xn штрафной функции (функции потерь) F (xn, wn):
, (1)
где , {wn} — неконтролируемая последовательность p-мерных случайных векторов wn (возмущений) с одинаковым (может быть) неизвестным распределением Pw(·) с компактным носителем .
Рассмотрим задачу минимизации функции
. (2)
Здесь и далее — символ математического ожидания.
Задача: по доступным наблюдениям необходимо построить последовательность оценок неизвестного вектора θ, минимизирующего функцию .
Для решения поставленной задачи воспользуемся итеративным алгоритмом из [13] с двумя измерениями.
Алгоритм: выберем произвольный вектор начальной оценки , и для выбираемых или задаваемых последовательностей положительных чисел и с помощью пробного одновременного возмущения {∆n} определим шаг итерации:
(3)
где ∆n, n = 1, 2, ... — наблюдаемая (задаваемая или контролируемая пользователем) последовательность независимых случайных векторов из с известными функциями распределения Pn(·), — задаваемые пользователем вектор-функции (ядра), удовлетворяющие вместе с Pn(·) условиям
, (4)
. (5)
Следующие предположения будут использоваться для формулировки основного результата.
Предположение 1. Функция f(·) — сильно выпуклая, т. е. имеет единственный минимум в в некоторой точке θ = θ(f(·)) и
с некоторой постоянной μ > 0. Здесь и далее — скалярное произведение .
Предположение 2. Условие Липшица на градиент функции F(·, w)
с некоторой постоянной .
Предположение 3. функции F(x, ·) и ∇xF(x, ·) равномерно на ограничены.
Пусть .
Предположение 4. О равномерной ограниченности помех наблюдения :
∀n ≥ 1, если случайно, то , иначе ограничены: .
Предположение 5. Условия о взаимной независимости помех , возмущений и пробных возмущений ∆n:
∀n ≥ 1 случайный вектор ∆n не зависит от , случайные векторы , ∆n не зависят от ; если — случайные величины, то , ∆n также не зависят от .
АНАЛИЗ СХОДИМОСТИ ПОСЛЕДОВАТЕЛЬНОСТИ ОЦЕНОК
Для анализа сходимости оценок алгоритма (3) используется метод из [18], аналогичный второму методу Ляпунова в теории устойчивости. В качестве функции Ляпунова выберем
. (6)
Перечислим основные условия теорем 1—3 из [18], выполнение которых надо проверить.
Условие А. Итеративный процесс Yn, задающий направление изменения оценки, имеет марковский характер, т. е. распределение случайного вектора Yn зависит только от и n:
.
Для алгоритма (3) имеем
.
Условие Б. — неотрицательна, — дифференцируема, а ее градиент удовлетворяет условию Липшица:
.
Условие В. Условие псевдоградиентности:
.
Для алгоритма (3) с учетом выбранной в виде (6) функции Ляпунова получается следующее выражение:
.
Учитывая вид y2n, y2n–1 и x2n, x2n–1, перепишем в виде
.
Так как в силу предположения 5 вектор ∆n не зависит от vn, то
.
Далее из (4) следует, что первый сомножитель в последней формуле равен нулю, а значит, и
.
Следовательно,
. (7)
Воспользовавшись дважды формулой Тейлора, перепишем выражение под знаком математического ожидания:
Оценим два слагаемых с интегралами по модулю:
(8)
Подставляем получившееся в (8) выражение в (7):
,
Так как
,
то
(9)
Условие Г. Условие на Gn(·, ·):
.
Учитывая ограниченность вектор-функций и компактность их носителя, последовательно выводим
(10)
использовав ограниченность вектор-функций , компактность их носителя и неравенство
где Ci, i = 1, 2, ... — некоторые положительные константы.
Для разности применим дважды формулу Тейлора:
(11)
Добавив и отняв и , получаем
(12)
Оценим скалярные произведения
В итоге получаем оценку для (12):
Подставив получившуюся оценку в (10), последовательно выводим
(13)
в силу ограниченности и компактности их носителя. Распишем разность
(14)
в виде
.
Добавив и отняв и , получаем
Оценим скалярные произведения:
Получили оценку для (14) в виде
Подставим получившееся выражение в (13):
(15)
Введем обозначения:
Так как
то
.
После подстановки в (15) получаем оценку
в силу компактности носителя , равномерной ограниченности функции F и ∇F.
Условие Д. Условие на начальное приближение выполнено.
Для формулировки основного результата статьи надо ввести ограничения на последовательность {αn}. Пусть αn удовлетворяет ограничениям
(16)
Введем обозначения:
Условие Е. .
При выборе αn, удовлетворяющих ограничениям (16), условие Е выполняется.
Проведенный анализ доказывает следующую теорему, являющуюся прямым следствием теорем 1—3 из [18].
Теорема. Пусть выполняются предположения 1–5 и условия (4), (5) и (16).
Если , тогда . Если при этом ψn ≤ ψ для всех n, то
.
Если ψn → 0, тогда .
Если, кроме того,
а) , то
;
б) λn ≤ λ < 1 для всех n, то
;
в) , то
;
г) для всех n, то
.
Если , тогда c вероятностью единица.
При этом для всякого ε > 0, n0 ≥ 0 имеем
,
где P(·) обозначает вероятность.
Если, кроме того, ,
то для всякого K > 0 найдется такое , что
,
а если для всех n, то
.
ЗАКЛЮЧЕНИЕ
Борисом Теодоровичем Поляком в 70-е годы XX в. были получены результаты, которые до сих пор активно используются исследователями. В настоящей статье на основании теорем 1—3 из статьи [18] получены новые результаты о свойствах оценок алгоритма (3), расширяющие ранее установленные в [6] асимптотические свойства оценок, добавляя к ним оценки точности при конечном числе итераций.
Об авторах
О. Н. Граничин
СПбГУ; ИПМаш РАН
Автор, ответственный за переписку.
Email: oleg_granichin@mail.ru
Россия, Санкт-Петербург; Санкт-Петербург
Ю. В. Иванский
СПбГУ; ИПМаш РАН
Email: oleg_granichin@mail.ru
Россия, Санкт-Петербург; Санкт-Петербург
К. Д. Копылова
СПбГУ
Email: oleg_granichin@mail.ru
Россия, Санкт-Петербург
Список литературы
- Граничин О. Н. Об одной стохастической рекуррентной процедуре при зависимых помехах в наблюдении, использующей на входе пробные возмущения // Вест. Ленингр. ун-та. 1989. Т. 1. № 1. С. 19—21.
- Поляк Б. Т., Цыбаков А. Б. О некоторых способах ускорения сходимости итерационных методов // Пробл. передачи информ. 1990. Т. 26. № 2. С. 126—133.
- Spall J. C. Multivariate stochastic approximation using a simultaneous perturbation gradient approximation// IEEE Trans. Autom. Control. 1992. V. 37. Iss. 6. P. 332—341.
- Граничин О. Н. Процедура стохастической аппроксимации с возмущением на входе // Автоматика и телемехан. 1992. № 2. C. 97—104.
- Polyak B. T., Tsybakov A. B. On stochastic approximation with arbitrary noise (the KW-case) // Adv. Sov. Math. 1992. V. 12. Iss. 8.
- Граничин О. Н., Поляк Б. Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. М.: Наука, 2003.
- Spall J. C. A one-measurement form of simultaneous perturbation stochastic approximation // Automatica. 1997. V. 33. Iss. 1. P. 109—112.
- Chen H., Duncan T. E., Pasik-Duncan B. A Kiefer-Wolfowitz algorithm with randomized differences // IEEE Trans. Autom. Control. 1999. V. 44. Iss. 3. P. 442—453.
- Lobanov A., Gasnikov A., Stonyakin F. Highly smoothness zero-order methods for solving optimization problems under PL condition // arXiv preprint arXiv:2305.15828; 2023.
- Dvinskikh D., Tominin V., Tominin Y., Gasnikov A. Gradient-free optimization for non-smooth saddle point problems under adversarial noise // arXiv preprint arXiv:2202.06114; 2022.
- Akhavan A., Chzhen E., Pontil M., Tsybakov A. B. Gradient-free optimization of highly smooth functions: improved analysis and a new algorithm // arXiv preprint arXiv:2306.02159; 2023.
- Antal C., Granichin O. N., Levi S. Adaptive autonomous soaring of multiple UAVs using simultaneous perturbation stochastic approximation // 49th IEEE Conf. on Decision and Control (CDC), 2010. P. 3656—3661.
- Granichin O., Amelina N. Simultaneous perturbation stochastic approximation for tracking under unknown but bounded disturbances // IEEE Trans. Autom. Control. 2015. V. 60. Iss. 6. P. 1653—1658.
- Granichin O. N., Erofeeva V. A., Ivanskiy Y. V., Jiang Y. Simultaneous perturbation stochastic approximation-based consensus for tracking under unknown-but-bounded disturbances // IEEE Trans. Autom. Control. 2021. V. 66. Iss. 8. P. 3710—3717.
- Erofeeva V. А., Granichin O. N., Tursunova M., Sergeenko A., Jiang Y. Accelerated simultaneous perturbation stochastic approximation for tracking under unknown-but-bounded disturbances // Am. Control Conf. (ACC) 2022. P. 1582—1587.
- Поляк Б. Т. О некоторых способах ускорения сходимости итерационных методов // Ж. вычисл. матем. и матем. физ. 1964. Т. 4. № 5. С. 791—803.
- Аблаев С. С., Безносиков А. Н., Гасников А. В., Двинских Д. М., Лобанов A. B., Пучинин C. М., Стонякин Ф. С. О некоторых работах Бориса Теодоровича Поляка по сходимости градиентных методов и их развитии // Ж. вычисл. матем. и матем. физ. 2024. Т. 64. № 4. С. 25–64.
- Поляк Б. Т. Сходимость и скорость сходимости итеративных стохастических алгоритмов. I. Общий случай // Автоматика и телемехан. 1976. № 12. С. 83—94.
Дополнительные файлы
