Stochastic Gradient Descent with Pre-Conditioned Polyak Step-Size
- Autores: Abdukhakimov F.1, Xiang C.1, Kamzolov D.1, Takáč M.1
-
Afiliações:
- Mohamed bin Zayed University of Artificial Intelligence
- Edição: Volume 64, Nº 4 (2024)
- Páginas: 575-586
- Seção: Optimal control
- URL: https://ogarev-online.ru/0044-4669/article/view/269964
- DOI: https://doi.org/10.31857/S0044466924040016
- EDN: https://elibrary.ru/ZKLWGL
- ID: 269964
Citar
Texto integral
Resumo
Stochastic Gradient Descent (SGD) is one of the many iterative optimization methods that are widely used in solving machine learning problems. These methods display valuable properties and attract researchers and industrial machine learning engineers with their simplicity. However, one of the weaknesses of this type of methods is the necessity to tune learning rate (step-size) for every loss function and dataset combination to solve an optimization problem and get an efficient performance in a given time budget. Stochastic Gradient Descent with Polyak Step-size (SPS) is a method that offers an update rule that alleviates the need of fine-tuning the learning rate of an optimizer. In this paper, we propose an extension of SPS that employs preconditioning techniques, such as Hutchinson’s method, Adam, and AdaGrad, to improve its performance on badly scaled and/or ill-conditioned datasets.
Palavras-chave
Texto integral
ВВЕДЕНИЕ
В настоящей статье мы рассматриваем задачу минимизации эмпирического риска (МЭР, англ. Empirical risk minimization, ERM), имеющую вид оптимизации конечной суммы:
, (1)
где является параметром весов и каждая целевая функция является гладкой и дважды дифференцируемой. Функция потерь fi(w) вычисляет разницу между предсказанием модели с параметрами весов w и целевым значением y. Целью является минимизация средней потери на n данных , где xi — входная точка данных и yi — соответствующее целевое значение. В связи с нетривиальностью данной задачи решение в явном виде не всегда доступно, что подталкивает к применению численных методов оптимизации. Одним из таких численных методов является стохастический градиентный спуск (SGD) со следующим обновлением параметров весов:
, (2)
где — размер шага метода. Использование мини-батчей для датасетов с большой размерностью при обучении значительно уменьшает время сходимости к оптимальной точке w*. Были проведены обширные исследования в области стохастических методов оптимизации первого порядка начиная с фундаментальных работ Г. Роббинса и С. Монро [1], Б. Т. Поляка [2], Б. Т. Поляка и А. Б. Юдицкого [3], А. С. Немировского и др. [4] и ускоренные версии от Г. Лан [5]. Стоить отметить, что каждая комбинация функции потерь и датасета требует отдельной ручной настройки размера шага γt для поиска минимума, что делает γt гиперпараметром. Эта проблема ручной настройки γt является одним из мотивирующим факторов разработки методов с адаптивным размером шага, где γt заменена адаптивно меняющимся выражением по ходу оптимизации. В последнее время такие адаптивные методы получили широкое распространение (см. [6]–[13]) особенно в области обучения глубоких нейронных сетей.
Другое направление адаптивных стохастических методов — стохастический градиентный спуск с размером шага им. Б. Т. Поляка, который был вдохновлен размером шага для субградиентных методов, предложенным Борисом Теодоровичем Поляком в 1969 г. (см. [14], [15]). Позже был предложен стохастический вариант этого шага в [16], [17] и другие различные расширения в [18]–[24]. В следующем разделе мы детально разберем некоторые из них.
Одним из главных предметов обсуждения статьи является получение методов, предназначенных для решения задач с плохой обусловленностью с помощью техники предобуславливания градиента. Несмотря на то, что достижение идеального предобусловливания практически невозможно, наше решение использует различные техники, предложенные в таких адаптивных алгоритмах, как Adam [7] и AdaGrad [6], а также метод Хатчинсона [25].
Введем обозначения. Мы наделяем прямое пространство w ∈ E и двойственное пространство g ∈ E* сопряженными нормами ||w|| и ||g||* соответственно. Как частный случай для положительно-определенной матрицы мы определяем двойственные евклидовы нормы: ||w||B = <Bw, w>1/2 и . Отметим, что ∇f(w) ∈ E и ∇2f(w)h ∈ E для h ∈ E. Оператор определяется как покомпонентное умножение двух векторов, также известное как произведение Адамара. Мы обозначаем diag(v) диагональную матрицу по заданному вектору v и вектор как диагональ матрицы . Для простоты мы также вводим следующее обозначение: (x)+ = max {0, x}.
ОБЗОР ЛИТЕРАТУРЫ И СВЯЗАННЫЕ РАБОТЫ
Давайте введем общее правило обновления для рассматриваемых методов как
, (3)
где γt — размер шага, Ht = Bt–1 — специальная предобуславливающая матрица, и mt обозначает либо gt (градиент или его некоторая аппроксимация), либо первый момент градиента с параметром β1. Для объяснения этого обновления мы можем представить, что направление спуска mt шкалируется и вращается предобуславливающей матрицей Ht, и делается шаг с размером шага γt. Некоторые известные адаптивные методы первого порядка пользуются слегка упрощенной формой того же правила обновления:
, (4)
где mt и vt — первый и второй моменты, а mt/vt — покоординатное деление. Упомянутые типы шагов заключают в себе одну и ту же идею предобуславливания направления спуска и могут быть для простоты использованы взаимозаменяемо на протяжении всей статьи.
Таким же образом можно описать классические методы оптимизации. Например, для получения обновления SGD требуется обозначить предобуславливающую матрицу Bt = I, первый момент mt = gt и размер шага γt как константу. Стоить отметить, что γt в SGD является особенно важным гиперпараметром, который требует специальной настройки в соответствии с заданными данными и функцией потерь, а методы с адаптивным размером шага, некоторые из которых используют предобуславливающую матрицу, основанную на локальной кривизне функции потерь, были представлены для устранения этой проблемы.
Классические методы с размером шага им. Б. Т. Поляка не используют такую информацию, но, тем не менее, стоит умопянуть о том, как получить классический детерминистический размер шага им. Б. Т. Поляка. Рассмотрим выпуклую функцию f(w) и ограниченное сверху расстояние от wt + 1 до оптимальной точки w*:
.
Здесь gt обозначает субградиент функции f(w), а f* — минимум функции. Минимизируя верхнюю границу Q(γ), мы получаем размер шага им. Б. Т. Поляка и можем выразить его через правило обновления (3):
. (5)
Подробный разбор доказательства приведен в [26]. Заметим, что размер шага (5) может быть применен только в том случае, когда оптимальное значение f* уже известно. Несмотря на то, что иногда это значение известно как f* = 0 (например в задачах классификации), детерминистическая природа данного метода делает его непрактичным. Для решения этой проблемы был представлен стохастический градиентный спуск с размером шага им. Б. Т. Поляка (SPS, Stochastic Gradient Descent with Polyak Step-size) (см. [17]) вместе с более практичной версией SPSmax, который ограничивает γt постоянной γb:
. (6)
Метод SPS все еще требует знания fi*, но при определенных режимах оптимизации стандартной нерегуляризированной функции потерь, таких как квадратичная задача для линейной регрессии и логистическая регрессия для классификации, оптимальное решение fi* равно 0. Если f* = 0, то правило обновления SPS выражается как
. (7)
Также существует другой способ получения метода SPS. Если предположить, что выполнено условие интерполяции, то мы можем решить (1) путем выборки i ∈ {1, 2,..., n} н. о. р.с.в. на каждой итерации t и решением нелинейного уравнения
. (8)
Хотя приведенная выше проекция может иметь аналитическое решение для некоторых простых функций потерь, для большинства нелинейных моделей, таких как глубокие нейронные сети, не существует решения в замкнутой форме. Поэтому вместо точного решения мы можем линеаризовать fi(w) вокруг текущей итерации wt, чтобы получить
.
Правило обновления (7) и есть аналитическое решение этой задачи.
Вне режима интерполяции решение для (8) может не существовать. Поэтому вместо того, чтобы пытаться обнулить все функции потерь, мы можем попытаться приблизить их к нулю, минимизировав дополнительную переменную остатка (slack) следующим образом:
которые называются L1- и L2-остаточными минимизациями (см. [19]) соответственно. Отметим, что цель этого метода состоит в том, чтобы приблизить s к нулю, что позволяет решать задачи, в которых предположение интерполяции не выполняется.
РЕЗУЛЬТАТЫ
В статье мы объединяем предобусловливание и варианты остаточно-регуляризованных методов SPS. Затем мы демонстрируем, что эти новые предобусловленные методы хорошо работают на плохо масштабированных и плохо обусловленных данных.
- Усовершенствованный SPS. Мы расширили методы SPS и представили три новых алгоритма: PSPS, PSPSL1 и PSPSL2, которые используют метод Хатчинсона, Adam и AdaGrad для предобусловливания градиентного шага с использованием размера шага им. Б. Т. Поляка для взвешенной евклидовой нормы. Правила обновлений наших методов в явном виде описаны ниже.
- Имплементация в PyTorch. Мы разработали практические варианты наших методов в качестве оптимизаторов PyTorch и опубликовали программный код в нашем репозитории GitHub1.
- Эмпирические Результаты. Мы привели несколько экспериментов с двумя разными задачами, чтобы сравнить наши результаты с SGD, Adam, AdaGrad и с вариантами SPS, в которых не применяются какие-либо методы предобусловливания. Мы показали, что предложенные нами алгоритмы демонстрируют заметные улучшения на плохо обусловленных задачах.
ПРЕДОБУСЛОВЛИВАНИЕ
Данные могут быть плохо масштабированы и/или плохо обусловлены, тогда предобусловливание градиента — это один из способов улучшить сходимость алгоритмов. Методы, использующие предобусловливание, имеют следующее общее правило обновления:
,
где — обратимая и положительно-определенная матрица. Метод Ньютона — один из самых наглядных примеров метода, использующего предобусловливание. В этом случае и γt = 1. Среди более современных и практичных методов с предобуславливанием отметим AdaHessian [27], Adagrad [6] и OASIS [28]. Эти методы включают кривизну функции потерь посредством адаптивных оценок Гессиана.
4.1. Метод Хатчинсона
Метод Хатчинсона (см. [25]) используется для оценки диагонали матрицы Гессиана. Для вычисления этой оценки метод Хатчинсона использует лишь несколько произведений Гессиана на вектор, которые, в свою очередь, можно эффективно вычислить с помощью быстрого автоматического дифференцирования (см. [29]). Произведение матрицы Гессиана ∇2f(w) и фиксированного вектора z можно вычислить через производную градиента по направлению. Чтобы понять, как этот метод используется для предобусловливания, сначала мы покажем, что затраты на вычисление произведения Гессиана на вектор близки к двух вычислениям градиентов, т. е.
. (9)
Затем мы можем вычислить диагональ Гессиана, используя метод Хатчинсона:
,
где z — случайный вектор с распределением Радемахера2 или нормальным распределением, а ∇2f(w)z вычисляется с помощью произведения Гессиана на вектор, заданного в (9).
Можно доказать, что математическое ожидание является диагональю Гессиана (см. [30]). Используя это тождество, мы оцениваем диагональ Гессиана по заданному D0, генерируя случайный вектор z на каждой итерации и обновляя нашу оценку с использованием средневзвешенного значения следующим образом:
,
где β ∈ (0,1) — параметр момента и
.
Наконец, чтобы гарантировать, что Dt остается положительно-определенным, несмотря на возможную невыпуклость функций потерь, мы используем усечение и сохраняем только абсолютные значения элементов следующим образом: ()j, j = max{α, |Dt| j, j}.
Algorithm 1. Аппроксимация диагонали Гессиана с использованием метода Хатчинсона
1: Ввод: β ∈ (0,1), α > 0
2: Инициализация:
3: for t = 1, 2,..., T do
4: Генерируем случайный вектор z из Радемахера/нормального распределения
5:
6: ()j, j = max{α,| Dt | j, j}
7: Вывод:
4.2. Метод AdaGrad
AdaGrad — это метод стохастической оптимизации, который аппроксимирует Гессиан функции, чтобы адаптировать размер шага в зависимости от информации о кривизне. Ключевая идея заключается в использовании информации о кумулятивном квадрате градиента для шкалирования размера шага. В форме (4) правило обновления для AdaGrad может быть задано следующим образом:
.
Накопление всех предыдущих градиентов в предобуславливателе vt приводит к уменьшению размера шага γt, что повышает производительность при разреженных данных (нечастых признаках), при этом ухудшается в случае плотных данных.
4.3. Метод Adam
Представленный в [7] Adam разработан для преодоления недостатков других популярных алгоритмов оптимизации, таких как AdaGrad [6] и RMSProp [31], путем включения как адаптивного размера шага, так и обновлений на основе метода “тяжелого шарика” (momentum). Правило обновления Adam предполагает вычисление скользящего среднего как для первого, так и для второго моментов градиентов. Первый момент — это среднее значение градиентов, а второй момент — нецентрированная дисперсия градиентов. Правило обновления для Adam может быть выражено в терминах (4) следующим образом:
,
где 0 < β1, β2 < 1 — два гиперпараметра, называемых коэффициентами первого и второго моментов. Смещенные оценки корректируются путем деления их на члены коррекции смещения, которые являются степенями скоростей затухания β1 и β2 соответственно.
ПРЕДОБУСЛОВЛЕННЫЙ СТОХАСТИЧЕСКИЙ ГРАДИЕНТНЫЙ СПУСК С РАЗМЕРОМ ШАГА ИМ. Б. Т. ПОЛЯКА
В этом разделе мы предлагаем новые методы, основанные на ранее описанных, таких как SPS. Прежде всего, чтобы описать их, мы рассмотрим задачу проекции на множество ограничений
. (10)
Обратите внимание, что ограничение fi(w)= 0 определено как условие интерполяции.
Определение 1. Мы предполагаем, что условие интерполяции выполняется для набора функций {fi(w)}ni = 1 по заданному набору данных {(xi, yi)}ni = 1 с неотрицательными функциями потерь fi(w) ≥ 0, когда
.
Одним из представленных методов, используемых в настоящей работе, является использование предобуславливания для улучшения скорости сходимости в случае плохо обусловленных данных. Чтобы получить это, мы изменяем норму в проекции (10) на взвешенную норму, основанную на предобуславливателе . Другой важной частью является линейная аппроксимация условия интерполяции fi(w) = 0. Согласно разложению Тейлора функции fi(w), линейное приближение (первого порядка) задается через . Мы используем это приближение, чтобы ослабить условие интерполяции, которое не допускает решения в явном виде для большинства нелинейных моделей. Другой способ получения аналитического решения — ввести дополнительную переменную остатка (описано позже).
Предобусловленный SPS. Мы рассматриваем дифференцируемую выпуклую функцию fi и линеаризацию условия интерполяции. Чтобы вывести предобусловленное правило обновления, мы используем взвешенную норму в проекции, полученный метод мы называем PSPS (Preconditioned Stochastic Gradient Descent with Polyak Step-size). В настоящей статье мы рассмотрим три варианта предобуславливания, а именно, метод Хатчинсона и предобуславливание оптимизаторов AdaGrad и Adam.
Лемма 1 (PSPS). Пусть для всех t ≥ 0, тогда итеративный явный шаг для задачи
выражается как
.
Отметим, что данный шаг может быть переформулирован в виде шага (3), где
.
Аналогичным образом мы можем применить предобуславливание для методов с остатком и получить следующие два метода: PSPSL1 и PSPSL2.
Лемма 2 (PSPSL1). Пусть для любых t ≥ 0 и μ, λ > 0, тогда явный вид шага для задачи
выражается как
.
Лемма 3 (PSPSL2). Пусть для любых t ≥ 0 и μ, λ > 0, тогда явный вид решения задачи
(11)
выражается как
где . Здесь остаточная параметр заставляет s быть ближе к 0, пока µ не дает st + 1 быть далеко от st.
ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ
В этом разделе мы представляем эксперименты, проведенные с использованием предложенных нами методов и некоторых из наиболее популярных оптимизаторов: SGD, Adam и AdaGrad. Выбор этих методов оправдан тем фактом, что все они, за исключением SGD, используют адаптивный размер шага. В наших экспериментах каждый из этих методов представлен с разными размерами шага, чтобы показать разницу в сходимости.
Мы использовали датасеты из LIBSVM3, а именно, mushrooms и colon-cancer, для иллюстрации эффективности предложенных методов, минимизирующих функцию потерь логистической регрессии и нелинейных наименьших квадратов в задачах бинарной классификации. Кроме того, каждый эксперимент дополнительно проводится на плохо обусловленной версии тех же наборов данных, где столбцы умножаются на вектор , где xi генерируется из равномерного распределения с интервалом [−k, k]. На всех приведенных далее иллючтрациях термин k относится к этому коэффициенту шкалирования, где k = 0 — исходные данные.
Во время обучения предложенными методами мы применяли параметры остатка и µ = 0.1. Для метода Хатчинсона мы применили α = 10−4 и β = 0,999. Гиперпараметры (за исключением размера шага) для других методов (SGD, Adam и т. д.) были сохранены в качестве значений по умолчанию. Все эксперименты проводились с пятью различными ключами генераторов случайности (seed), используя PyTorch 1.11.0.
Оптимизируемые функции. Пусть — это данные из выбранного датасета. Логистическая регрессия определена следующим образом:
,
где и yi ∈ {−1, +1}. Нелинейные наименьшие квадраты заданы как
,
где yi ∈ {0, 1}.
На фиг. 3 мы сравниваем скорости сходимости SPS с предобуславливателем Adam и без него. Наблюдаем, что в случае плохо обусловленных данных нам необходимо точно настроить размер шага оптимизатора Adam, чтобы избежать расхождений, поскольку выбор одинаковых размеров шага в обоих версиях данных привело к расхождению с k = 6. Кроме того, мы можем наблюдать, как различные методы предобуславливания превосходят SPS без какого-либо предобуславливания как для исходных данных, так и для плохо обусловленных. Отсутствие необходимости ручной настройки размера шага является одним из преимуществ предобусловленных методов SPS. Аналогичные результаты можно наблюдать на фиг. 6 и 9 для датасета colon-cancer. На фиг. 3б мы видим, что шкалирование данных приводит к тому, что размер шага Adam приходится уменьшать по мере увеличения коэффициента шкалирования k, чтобы метод не расходился.
Фиг. 1. Метод Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете mushrooms
Фиг. 2. Методы AdaGrad vs PSPS с разным предобуславливанием для логистической регрессии на датасет mushrooms
Фиг. 3. Методы Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете colon-cancer
Мы также сравниваем наши методы с оригинальными SPS, SPSL1, SPSL2, SGD и Adam (фиг. 4 и 5).
Фиг. 4. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета colon-cancer
Фиг. 5. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета mushrooms
ЗАКЛЮЧЕНИЕ
В статье мы изучили влияние предобуславливания на семейство методов SPS (стохастический градиентный спуск с размером шага им. Б. Т. Поляка). Мы предложили новые методы PSPS, PSPSL1, PSPSL2 в (11)–(13). Эксперименты проводились как в выпуклых, так и в невыпуклых случаях с двумя разными датасетами. В настоящей статье отсутствует теоретический анализ предлагаемых нами методов, который может быть проведен в качестве последующей исследовательской работы. Кроме того, интересно провести эксперименты с более сложными моделями, такими как глубокие нейронные сети.
1 https://github.com/fxrshed/ScaledSPS.
2 zi ∈ {−1, +1} с равной вероятностью.
3 https://www.csie.ntu.edu.tw/ cjlin/libsvmtools/datasets/
Sobre autores
F. Abdukhakimov
Mohamed bin Zayed University of Artificial Intelligence
Autor responsável pela correspondência
Email: farshed888@gmail.com
Emirados Árabes Unidos, Abu Dhabi
Ch. Xiang
Mohamed bin Zayed University of Artificial Intelligence
Email: chulu.xiang@mbzuai.ac.ae
Emirados Árabes Unidos, Abu Dhabi
D. Kamzolov
Mohamed bin Zayed University of Artificial Intelligence
Email: kamzolov.opt@gmail.com
Emirados Árabes Unidos, Abu Dhabi
M. Takáč
Mohamed bin Zayed University of Artificial Intelligence
Email: takac.mt@gmail.com
Emirados Árabes Unidos, Abu Dhabi
Bibliografia
- Bekas C., Kokiopoulou E., Saad Y. An estimator for the diagonal of a matrix // Appl. Numer. Math. 2007. V. 57. № 11. P. 1214—1229.
- Berrada L., Zisserman A., Kumar M. P. Training neural networks for and by interpolation. In Hal Daum´e III and Aarti Singh, eds. // Proceed. 37th Inter. Conf. Mach. Learn. 2020. V. 119. P. 799—809.
- Boyd S., Xiao L., Mutapcic A. Subgradient methods. lecture notes of EE392o, Stanford Univer., Autumn Quarter. 2023. V. 2004. P. 2004—2005.
- Christianson B. Automatic Hessians by reverse accumulation // IMA J. Numer. Analys. 1992. V. 12. № 2. P. 135—150.
- Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization // J. Mach. Learn. Res. 2011. V. 12. № 61. P. 2121—2159.
- Garrigos G., Gower R. M., Schaipp F. Function value learning: Adaptive learning rates based on the polyak stepsize and function splitting in erm // arXiv preprint arXiv:2307.14528, 2023.
- Gower R.M., Blondel M., Gazagnadou N., Pedregosa F. Cutting some slack for sgd with adaptive polyak stepsizes // arXiv preprint arXiv:2202.12328, 2022.
- Hutchinson M.F. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines // Comm. in Statistics-Simulation and Computat. 1989. V. 18. № 3. P. 1059—1076.
- Jahani M., Rusakov S., Shi Zh., Richt´arik P., Mahoney M. W., Tak´aˇc M. Doubly adaptive scaled algorithm for machine learning using second-order information // In 10th Inter. Conf. Learn. Representat. (ICLR2022), 2022.
- Jiang X., Stich S. U. Adaptive sgd with polyak stepsize and line-search: Robust convergence and variance reduction // arXiv preprint arXiv:2308.06058, 2023.
- Kingma D., Ba J. Adam: A method for stochastic optimization // Inter. Conf. Learn. Representat. (ICLR), San Diego, CA, USA, 2015.
- Lan G. An optimal method for stochastic composite optimization // Math. Program. 2012. V. 133. P. 365—397.
- Li Sh., Swartworth W. J., Tak´aˇc M., Needell D., Gower R. M. SP2: A second order stochastic polyak method // 11th Inter. Conf. on Learn. Representat., 2023.
- Li X., Orabona F. On the convergence of stochastic gradient descent with adaptive stepsizes. In Kamalika Chaudhuri and Masashi Sugiyama, eds. // Proceed. 22nd Inter. Conf. Artific. Intelligence and Statistic. 2019. V. 89. P. 983—992.
- Loizou N., Vaswani Sh., Laradji I. H., Lacoste-Julien S. Stochastic polyak step-size for sgd: An adaptive learning rate for fast convergence. In Arindam Banerjee and Kenji Fukumizu, eds. // Proceed. 24th Inter. Conf. Artific. Intelligence and Statistic. 2021. V. 130. P. 1306—1314.
- Loshchilov I., Hutter F. Decoupled weight decay regularization // Inter. Conf. Learn. Representat., 2019.
- Nemirovski A., Juditsky A., Lan G., Shapiro A. Robust stochastic approximation approach to stochastic programming // SIAM J. Optimizat. 2009. V. 19. № 4. P. 1574—1609.
- Orvieto A., Lacoste-Julien S., Loizou N. Dynamics of sgd with stochastic polyak stepsizes: Truly adaptive variants and convergence to exact solution. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, and A. Oh, eds. // Adv. Neural Informat. Proces. System. 2022. V. 35. P. 26943—26954.
- Polyak B.T., Juditsky A. B. Acceleration of stochastic approximation by averaging.
- SIAM J. Control and Optimizat. 1992. V. 30. № 4. P. 838—855.
- Polyak B. T. Minimization of unsmooth functionals // USSR Comput. Math. and Math. Phys. 1969. V. 9. P. 14—29.
- Polyak B. T. Introduction to optimization. Optimization Software, Inc., Publ. Division, 1987.
- Polyak B.T. A new method of stochastic approximation type // Avtomatika i Telemekhanika. 1990. V. 51. P. 98—107.
- Reddi S.J., Kale S., Kumar S. On the convergence of adam and beyond // Inter. Conf. Learn. Representat., 2018.
- Robbins H., Monro S. A stochastic approximation method // Ann. Math. Statistic. 1951. V. 22. P. 400—407.
- Sadiev A., Beznosikov A., Almansoori A. J., Kamzolov D., Tappenden R., Tak´aˇc M. Stochastic gradient methods with preconditioned updates // arXiv preprint arXiv:2206.00285, 2022.
- Schaipp F., Gower R. M., Ulbrich M. A stochastic proximal polyak step size // arXiv preprint arXiv:2301.04935, 2023.
- Schaipp F., Ohana R., Eickenberg M., Defazio A., Gower R. M. Momo: Momentum models for adaptive learning rates // arXiv preprint arXiv:2305.07583, 2023.
- Shi Zh., Sadiev A., Loizou N., Richt´arik P., Tak´aˇc M. AI-SARAH: Adaptive and implicit stochastic recursive gradient methods // Transact. Mach. Learn. Res., 2023.
- Tieleman T., Hinton G., et al. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude // COURSERA: Neural Networks for Machine Learn. 2012. V. 4. № 2. P. 26—31.
- Ward R., Wu X., Bottou L. Adagrad stepsizes: Sharp convergence over nonconvex landscapes // J. Mach. Learn. Res. 2020. V. 21. № 1. P. 9047—9076.
- Yao Zh., Gholami A., Shen Sh., Mustafa M., Keutzer K., Mahoney M. Adahessian: An adaptive second order optimizer for machine learning // Proceed. AAAI Conf. Artific. Intelligence. 2021. V. 35. P. 10665—10673.
Arquivos suplementares
