Стохастический градиентный спуск с предобусловленным размером шага им. Б. Т. Поляка
- Авторы: Абдухакимов Ф.1, Сян Ч.1, Камзолов Д.1, Такач М.1
-
Учреждения:
- Университет искусственного интеллекта им. Мохамеда бин Заеда
- Выпуск: Том 64, № 4 (2024)
- Страницы: 575-586
- Раздел: ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ
- URL: https://ogarev-online.ru/0044-4669/article/view/269964
- DOI: https://doi.org/10.31857/S0044466924040016
- EDN: https://elibrary.ru/ZKLWGL
- ID: 269964
Цитировать
Полный текст
Аннотация
Стохастический градиентный спуск (SGD) является одним из множества методов оптимизации, используемых для решения задач машинного обучения. Практичность и простота подобных методов привлекают не только исследователей, но и инженеров машинного обучения из индустрии. Однако одна из главных слабостей таких методов заключается в необходимости ручной настройки размера шага для эффективного решения каждой конкретной оптимизационной задачи, функции потерь и данных. Стохастический градиентный спуск с размером шага им. Б.Т. Поляка (SPS) – это метод, который предлагает правило обновления, не требующее точной ручной настройки размера шага для решения задачи. Цель настоящей работы – расширить SPS с помощью таких приемов предобуславливания, как методы Хатчинсона, Adam и AdaGrad, что, в свою очередь, улучшит эффективность SPS в случае с плохой обусловленностью задачи и данных. Библ. 31. Фиг. 5.
Полный текст
ВВЕДЕНИЕ
В настоящей статье мы рассматриваем задачу минимизации эмпирического риска (МЭР, англ. Empirical risk minimization, ERM), имеющую вид оптимизации конечной суммы:
, (1)
где является параметром весов и каждая целевая функция является гладкой и дважды дифференцируемой. Функция потерь fi(w) вычисляет разницу между предсказанием модели с параметрами весов w и целевым значением y. Целью является минимизация средней потери на n данных , где xi — входная точка данных и yi — соответствующее целевое значение. В связи с нетривиальностью данной задачи решение в явном виде не всегда доступно, что подталкивает к применению численных методов оптимизации. Одним из таких численных методов является стохастический градиентный спуск (SGD) со следующим обновлением параметров весов:
, (2)
где — размер шага метода. Использование мини-батчей для датасетов с большой размерностью при обучении значительно уменьшает время сходимости к оптимальной точке w*. Были проведены обширные исследования в области стохастических методов оптимизации первого порядка начиная с фундаментальных работ Г. Роббинса и С. Монро [1], Б. Т. Поляка [2], Б. Т. Поляка и А. Б. Юдицкого [3], А. С. Немировского и др. [4] и ускоренные версии от Г. Лан [5]. Стоить отметить, что каждая комбинация функции потерь и датасета требует отдельной ручной настройки размера шага γt для поиска минимума, что делает γt гиперпараметром. Эта проблема ручной настройки γt является одним из мотивирующим факторов разработки методов с адаптивным размером шага, где γt заменена адаптивно меняющимся выражением по ходу оптимизации. В последнее время такие адаптивные методы получили широкое распространение (см. [6]–[13]) особенно в области обучения глубоких нейронных сетей.
Другое направление адаптивных стохастических методов — стохастический градиентный спуск с размером шага им. Б. Т. Поляка, который был вдохновлен размером шага для субградиентных методов, предложенным Борисом Теодоровичем Поляком в 1969 г. (см. [14], [15]). Позже был предложен стохастический вариант этого шага в [16], [17] и другие различные расширения в [18]–[24]. В следующем разделе мы детально разберем некоторые из них.
Одним из главных предметов обсуждения статьи является получение методов, предназначенных для решения задач с плохой обусловленностью с помощью техники предобуславливания градиента. Несмотря на то, что достижение идеального предобусловливания практически невозможно, наше решение использует различные техники, предложенные в таких адаптивных алгоритмах, как Adam [7] и AdaGrad [6], а также метод Хатчинсона [25].
Введем обозначения. Мы наделяем прямое пространство w ∈ E и двойственное пространство g ∈ E* сопряженными нормами ||w|| и ||g||* соответственно. Как частный случай для положительно-определенной матрицы мы определяем двойственные евклидовы нормы: ||w||B = <Bw, w>1/2 и . Отметим, что ∇f(w) ∈ E и ∇2f(w)h ∈ E для h ∈ E. Оператор определяется как покомпонентное умножение двух векторов, также известное как произведение Адамара. Мы обозначаем diag(v) диагональную матрицу по заданному вектору v и вектор как диагональ матрицы . Для простоты мы также вводим следующее обозначение: (x)+ = max {0, x}.
ОБЗОР ЛИТЕРАТУРЫ И СВЯЗАННЫЕ РАБОТЫ
Давайте введем общее правило обновления для рассматриваемых методов как
, (3)
где γt — размер шага, Ht = Bt–1 — специальная предобуславливающая матрица, и mt обозначает либо gt (градиент или его некоторая аппроксимация), либо первый момент градиента с параметром β1. Для объяснения этого обновления мы можем представить, что направление спуска mt шкалируется и вращается предобуславливающей матрицей Ht, и делается шаг с размером шага γt. Некоторые известные адаптивные методы первого порядка пользуются слегка упрощенной формой того же правила обновления:
, (4)
где mt и vt — первый и второй моменты, а mt/vt — покоординатное деление. Упомянутые типы шагов заключают в себе одну и ту же идею предобуславливания направления спуска и могут быть для простоты использованы взаимозаменяемо на протяжении всей статьи.
Таким же образом можно описать классические методы оптимизации. Например, для получения обновления SGD требуется обозначить предобуславливающую матрицу Bt = I, первый момент mt = gt и размер шага γt как константу. Стоить отметить, что γt в SGD является особенно важным гиперпараметром, который требует специальной настройки в соответствии с заданными данными и функцией потерь, а методы с адаптивным размером шага, некоторые из которых используют предобуславливающую матрицу, основанную на локальной кривизне функции потерь, были представлены для устранения этой проблемы.
Классические методы с размером шага им. Б. Т. Поляка не используют такую информацию, но, тем не менее, стоит умопянуть о том, как получить классический детерминистический размер шага им. Б. Т. Поляка. Рассмотрим выпуклую функцию f(w) и ограниченное сверху расстояние от wt + 1 до оптимальной точки w*:
.
Здесь gt обозначает субградиент функции f(w), а f* — минимум функции. Минимизируя верхнюю границу Q(γ), мы получаем размер шага им. Б. Т. Поляка и можем выразить его через правило обновления (3):
. (5)
Подробный разбор доказательства приведен в [26]. Заметим, что размер шага (5) может быть применен только в том случае, когда оптимальное значение f* уже известно. Несмотря на то, что иногда это значение известно как f* = 0 (например в задачах классификации), детерминистическая природа данного метода делает его непрактичным. Для решения этой проблемы был представлен стохастический градиентный спуск с размером шага им. Б. Т. Поляка (SPS, Stochastic Gradient Descent with Polyak Step-size) (см. [17]) вместе с более практичной версией SPSmax, который ограничивает γt постоянной γb:
. (6)
Метод SPS все еще требует знания fi*, но при определенных режимах оптимизации стандартной нерегуляризированной функции потерь, таких как квадратичная задача для линейной регрессии и логистическая регрессия для классификации, оптимальное решение fi* равно 0. Если f* = 0, то правило обновления SPS выражается как
. (7)
Также существует другой способ получения метода SPS. Если предположить, что выполнено условие интерполяции, то мы можем решить (1) путем выборки i ∈ {1, 2,..., n} н. о. р.с.в. на каждой итерации t и решением нелинейного уравнения
. (8)
Хотя приведенная выше проекция может иметь аналитическое решение для некоторых простых функций потерь, для большинства нелинейных моделей, таких как глубокие нейронные сети, не существует решения в замкнутой форме. Поэтому вместо точного решения мы можем линеаризовать fi(w) вокруг текущей итерации wt, чтобы получить
.
Правило обновления (7) и есть аналитическое решение этой задачи.
Вне режима интерполяции решение для (8) может не существовать. Поэтому вместо того, чтобы пытаться обнулить все функции потерь, мы можем попытаться приблизить их к нулю, минимизировав дополнительную переменную остатка (slack) следующим образом:
которые называются L1- и L2-остаточными минимизациями (см. [19]) соответственно. Отметим, что цель этого метода состоит в том, чтобы приблизить s к нулю, что позволяет решать задачи, в которых предположение интерполяции не выполняется.
РЕЗУЛЬТАТЫ
В статье мы объединяем предобусловливание и варианты остаточно-регуляризованных методов SPS. Затем мы демонстрируем, что эти новые предобусловленные методы хорошо работают на плохо масштабированных и плохо обусловленных данных.
- Усовершенствованный SPS. Мы расширили методы SPS и представили три новых алгоритма: PSPS, PSPSL1 и PSPSL2, которые используют метод Хатчинсона, Adam и AdaGrad для предобусловливания градиентного шага с использованием размера шага им. Б. Т. Поляка для взвешенной евклидовой нормы. Правила обновлений наших методов в явном виде описаны ниже.
- Имплементация в PyTorch. Мы разработали практические варианты наших методов в качестве оптимизаторов PyTorch и опубликовали программный код в нашем репозитории GitHub1.
- Эмпирические Результаты. Мы привели несколько экспериментов с двумя разными задачами, чтобы сравнить наши результаты с SGD, Adam, AdaGrad и с вариантами SPS, в которых не применяются какие-либо методы предобусловливания. Мы показали, что предложенные нами алгоритмы демонстрируют заметные улучшения на плохо обусловленных задачах.
ПРЕДОБУСЛОВЛИВАНИЕ
Данные могут быть плохо масштабированы и/или плохо обусловлены, тогда предобусловливание градиента — это один из способов улучшить сходимость алгоритмов. Методы, использующие предобусловливание, имеют следующее общее правило обновления:
,
где — обратимая и положительно-определенная матрица. Метод Ньютона — один из самых наглядных примеров метода, использующего предобусловливание. В этом случае и γt = 1. Среди более современных и практичных методов с предобуславливанием отметим AdaHessian [27], Adagrad [6] и OASIS [28]. Эти методы включают кривизну функции потерь посредством адаптивных оценок Гессиана.
4.1. Метод Хатчинсона
Метод Хатчинсона (см. [25]) используется для оценки диагонали матрицы Гессиана. Для вычисления этой оценки метод Хатчинсона использует лишь несколько произведений Гессиана на вектор, которые, в свою очередь, можно эффективно вычислить с помощью быстрого автоматического дифференцирования (см. [29]). Произведение матрицы Гессиана ∇2f(w) и фиксированного вектора z можно вычислить через производную градиента по направлению. Чтобы понять, как этот метод используется для предобусловливания, сначала мы покажем, что затраты на вычисление произведения Гессиана на вектор близки к двух вычислениям градиентов, т. е.
. (9)
Затем мы можем вычислить диагональ Гессиана, используя метод Хатчинсона:
,
где z — случайный вектор с распределением Радемахера2 или нормальным распределением, а ∇2f(w)z вычисляется с помощью произведения Гессиана на вектор, заданного в (9).
Можно доказать, что математическое ожидание является диагональю Гессиана (см. [30]). Используя это тождество, мы оцениваем диагональ Гессиана по заданному D0, генерируя случайный вектор z на каждой итерации и обновляя нашу оценку с использованием средневзвешенного значения следующим образом:
,
где β ∈ (0,1) — параметр момента и
.
Наконец, чтобы гарантировать, что Dt остается положительно-определенным, несмотря на возможную невыпуклость функций потерь, мы используем усечение и сохраняем только абсолютные значения элементов следующим образом: ()j, j = max{α, |Dt| j, j}.
Algorithm 1. Аппроксимация диагонали Гессиана с использованием метода Хатчинсона
1: Ввод: β ∈ (0,1), α > 0
2: Инициализация:
3: for t = 1, 2,..., T do
4: Генерируем случайный вектор z из Радемахера/нормального распределения
5:
6: ()j, j = max{α,| Dt | j, j}
7: Вывод:
4.2. Метод AdaGrad
AdaGrad — это метод стохастической оптимизации, который аппроксимирует Гессиан функции, чтобы адаптировать размер шага в зависимости от информации о кривизне. Ключевая идея заключается в использовании информации о кумулятивном квадрате градиента для шкалирования размера шага. В форме (4) правило обновления для AdaGrad может быть задано следующим образом:
.
Накопление всех предыдущих градиентов в предобуславливателе vt приводит к уменьшению размера шага γt, что повышает производительность при разреженных данных (нечастых признаках), при этом ухудшается в случае плотных данных.
4.3. Метод Adam
Представленный в [7] Adam разработан для преодоления недостатков других популярных алгоритмов оптимизации, таких как AdaGrad [6] и RMSProp [31], путем включения как адаптивного размера шага, так и обновлений на основе метода “тяжелого шарика” (momentum). Правило обновления Adam предполагает вычисление скользящего среднего как для первого, так и для второго моментов градиентов. Первый момент — это среднее значение градиентов, а второй момент — нецентрированная дисперсия градиентов. Правило обновления для Adam может быть выражено в терминах (4) следующим образом:
,
где 0 < β1, β2 < 1 — два гиперпараметра, называемых коэффициентами первого и второго моментов. Смещенные оценки корректируются путем деления их на члены коррекции смещения, которые являются степенями скоростей затухания β1 и β2 соответственно.
ПРЕДОБУСЛОВЛЕННЫЙ СТОХАСТИЧЕСКИЙ ГРАДИЕНТНЫЙ СПУСК С РАЗМЕРОМ ШАГА ИМ. Б. Т. ПОЛЯКА
В этом разделе мы предлагаем новые методы, основанные на ранее описанных, таких как SPS. Прежде всего, чтобы описать их, мы рассмотрим задачу проекции на множество ограничений
. (10)
Обратите внимание, что ограничение fi(w)= 0 определено как условие интерполяции.
Определение 1. Мы предполагаем, что условие интерполяции выполняется для набора функций {fi(w)}ni = 1 по заданному набору данных {(xi, yi)}ni = 1 с неотрицательными функциями потерь fi(w) ≥ 0, когда
.
Одним из представленных методов, используемых в настоящей работе, является использование предобуславливания для улучшения скорости сходимости в случае плохо обусловленных данных. Чтобы получить это, мы изменяем норму в проекции (10) на взвешенную норму, основанную на предобуславливателе . Другой важной частью является линейная аппроксимация условия интерполяции fi(w) = 0. Согласно разложению Тейлора функции fi(w), линейное приближение (первого порядка) задается через . Мы используем это приближение, чтобы ослабить условие интерполяции, которое не допускает решения в явном виде для большинства нелинейных моделей. Другой способ получения аналитического решения — ввести дополнительную переменную остатка (описано позже).
Предобусловленный SPS. Мы рассматриваем дифференцируемую выпуклую функцию fi и линеаризацию условия интерполяции. Чтобы вывести предобусловленное правило обновления, мы используем взвешенную норму в проекции, полученный метод мы называем PSPS (Preconditioned Stochastic Gradient Descent with Polyak Step-size). В настоящей статье мы рассмотрим три варианта предобуславливания, а именно, метод Хатчинсона и предобуславливание оптимизаторов AdaGrad и Adam.
Лемма 1 (PSPS). Пусть для всех t ≥ 0, тогда итеративный явный шаг для задачи
выражается как
.
Отметим, что данный шаг может быть переформулирован в виде шага (3), где
.
Аналогичным образом мы можем применить предобуславливание для методов с остатком и получить следующие два метода: PSPSL1 и PSPSL2.
Лемма 2 (PSPSL1). Пусть для любых t ≥ 0 и μ, λ > 0, тогда явный вид шага для задачи
выражается как
.
Лемма 3 (PSPSL2). Пусть для любых t ≥ 0 и μ, λ > 0, тогда явный вид решения задачи
(11)
выражается как
где . Здесь остаточная параметр заставляет s быть ближе к 0, пока µ не дает st + 1 быть далеко от st.
ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ
В этом разделе мы представляем эксперименты, проведенные с использованием предложенных нами методов и некоторых из наиболее популярных оптимизаторов: SGD, Adam и AdaGrad. Выбор этих методов оправдан тем фактом, что все они, за исключением SGD, используют адаптивный размер шага. В наших экспериментах каждый из этих методов представлен с разными размерами шага, чтобы показать разницу в сходимости.
Мы использовали датасеты из LIBSVM3, а именно, mushrooms и colon-cancer, для иллюстрации эффективности предложенных методов, минимизирующих функцию потерь логистической регрессии и нелинейных наименьших квадратов в задачах бинарной классификации. Кроме того, каждый эксперимент дополнительно проводится на плохо обусловленной версии тех же наборов данных, где столбцы умножаются на вектор , где xi генерируется из равномерного распределения с интервалом [−k, k]. На всех приведенных далее иллючтрациях термин k относится к этому коэффициенту шкалирования, где k = 0 — исходные данные.
Во время обучения предложенными методами мы применяли параметры остатка и µ = 0.1. Для метода Хатчинсона мы применили α = 10−4 и β = 0,999. Гиперпараметры (за исключением размера шага) для других методов (SGD, Adam и т. д.) были сохранены в качестве значений по умолчанию. Все эксперименты проводились с пятью различными ключами генераторов случайности (seed), используя PyTorch 1.11.0.
Оптимизируемые функции. Пусть — это данные из выбранного датасета. Логистическая регрессия определена следующим образом:
,
где и yi ∈ {−1, +1}. Нелинейные наименьшие квадраты заданы как
,
где yi ∈ {0, 1}.
На фиг. 3 мы сравниваем скорости сходимости SPS с предобуславливателем Adam и без него. Наблюдаем, что в случае плохо обусловленных данных нам необходимо точно настроить размер шага оптимизатора Adam, чтобы избежать расхождений, поскольку выбор одинаковых размеров шага в обоих версиях данных привело к расхождению с k = 6. Кроме того, мы можем наблюдать, как различные методы предобуславливания превосходят SPS без какого-либо предобуславливания как для исходных данных, так и для плохо обусловленных. Отсутствие необходимости ручной настройки размера шага является одним из преимуществ предобусловленных методов SPS. Аналогичные результаты можно наблюдать на фиг. 6 и 9 для датасета colon-cancer. На фиг. 3б мы видим, что шкалирование данных приводит к тому, что размер шага Adam приходится уменьшать по мере увеличения коэффициента шкалирования k, чтобы метод не расходился.
Фиг. 1. Метод Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете mushrooms
Фиг. 2. Методы AdaGrad vs PSPS с разным предобуславливанием для логистической регрессии на датасет mushrooms
Фиг. 3. Методы Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете colon-cancer
Мы также сравниваем наши методы с оригинальными SPS, SPSL1, SPSL2, SGD и Adam (фиг. 4 и 5).
Фиг. 4. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета colon-cancer
Фиг. 5. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета mushrooms
ЗАКЛЮЧЕНИЕ
В статье мы изучили влияние предобуславливания на семейство методов SPS (стохастический градиентный спуск с размером шага им. Б. Т. Поляка). Мы предложили новые методы PSPS, PSPSL1, PSPSL2 в (11)–(13). Эксперименты проводились как в выпуклых, так и в невыпуклых случаях с двумя разными датасетами. В настоящей статье отсутствует теоретический анализ предлагаемых нами методов, который может быть проведен в качестве последующей исследовательской работы. Кроме того, интересно провести эксперименты с более сложными моделями, такими как глубокие нейронные сети.
1 https://github.com/fxrshed/ScaledSPS.
2 zi ∈ {−1, +1} с равной вероятностью.
3 https://www.csie.ntu.edu.tw/ cjlin/libsvmtools/datasets/
Об авторах
Ф. Абдухакимов
Университет искусственного интеллекта им. Мохамеда бин Заеда
Автор, ответственный за переписку.
Email: farshed888@gmail.com
ОАЭ, Абу-Даби
Ч. Сян
Университет искусственного интеллекта им. Мохамеда бин Заеда
Email: chulu.xiang@mbzuai.ac.ae
ОАЭ, Абу-Даби
Д. Камзолов
Университет искусственного интеллекта им. Мохамеда бин Заеда
Email: kamzolov.opt@gmail.com
ОАЭ, Абу-Даби
М. Такач
Университет искусственного интеллекта им. Мохамеда бин Заеда
Email: takac.mt@gmail.com
ОАЭ, Абу-Даби
Список литературы
- Bekas C., Kokiopoulou E., Saad Y. An estimator for the diagonal of a matrix // Appl. Numer. Math. 2007. V. 57. № 11. P. 1214—1229.
- Berrada L., Zisserman A., Kumar M. P. Training neural networks for and by interpolation. In Hal Daum´e III and Aarti Singh, eds. // Proceed. 37th Inter. Conf. Mach. Learn. 2020. V. 119. P. 799—809.
- Boyd S., Xiao L., Mutapcic A. Subgradient methods. lecture notes of EE392o, Stanford Univer., Autumn Quarter. 2023. V. 2004. P. 2004—2005.
- Christianson B. Automatic Hessians by reverse accumulation // IMA J. Numer. Analys. 1992. V. 12. № 2. P. 135—150.
- Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization // J. Mach. Learn. Res. 2011. V. 12. № 61. P. 2121—2159.
- Garrigos G., Gower R. M., Schaipp F. Function value learning: Adaptive learning rates based on the polyak stepsize and function splitting in erm // arXiv preprint arXiv:2307.14528, 2023.
- Gower R.M., Blondel M., Gazagnadou N., Pedregosa F. Cutting some slack for sgd with adaptive polyak stepsizes // arXiv preprint arXiv:2202.12328, 2022.
- Hutchinson M.F. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines // Comm. in Statistics-Simulation and Computat. 1989. V. 18. № 3. P. 1059—1076.
- Jahani M., Rusakov S., Shi Zh., Richt´arik P., Mahoney M. W., Tak´aˇc M. Doubly adaptive scaled algorithm for machine learning using second-order information // In 10th Inter. Conf. Learn. Representat. (ICLR2022), 2022.
- Jiang X., Stich S. U. Adaptive sgd with polyak stepsize and line-search: Robust convergence and variance reduction // arXiv preprint arXiv:2308.06058, 2023.
- Kingma D., Ba J. Adam: A method for stochastic optimization // Inter. Conf. Learn. Representat. (ICLR), San Diego, CA, USA, 2015.
- Lan G. An optimal method for stochastic composite optimization // Math. Program. 2012. V. 133. P. 365—397.
- Li Sh., Swartworth W. J., Tak´aˇc M., Needell D., Gower R. M. SP2: A second order stochastic polyak method // 11th Inter. Conf. on Learn. Representat., 2023.
- Li X., Orabona F. On the convergence of stochastic gradient descent with adaptive stepsizes. In Kamalika Chaudhuri and Masashi Sugiyama, eds. // Proceed. 22nd Inter. Conf. Artific. Intelligence and Statistic. 2019. V. 89. P. 983—992.
- Loizou N., Vaswani Sh., Laradji I. H., Lacoste-Julien S. Stochastic polyak step-size for sgd: An adaptive learning rate for fast convergence. In Arindam Banerjee and Kenji Fukumizu, eds. // Proceed. 24th Inter. Conf. Artific. Intelligence and Statistic. 2021. V. 130. P. 1306—1314.
- Loshchilov I., Hutter F. Decoupled weight decay regularization // Inter. Conf. Learn. Representat., 2019.
- Nemirovski A., Juditsky A., Lan G., Shapiro A. Robust stochastic approximation approach to stochastic programming // SIAM J. Optimizat. 2009. V. 19. № 4. P. 1574—1609.
- Orvieto A., Lacoste-Julien S., Loizou N. Dynamics of sgd with stochastic polyak stepsizes: Truly adaptive variants and convergence to exact solution. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, and A. Oh, eds. // Adv. Neural Informat. Proces. System. 2022. V. 35. P. 26943—26954.
- Polyak B.T., Juditsky A. B. Acceleration of stochastic approximation by averaging.
- SIAM J. Control and Optimizat. 1992. V. 30. № 4. P. 838—855.
- Polyak B. T. Minimization of unsmooth functionals // USSR Comput. Math. and Math. Phys. 1969. V. 9. P. 14—29.
- Polyak B. T. Introduction to optimization. Optimization Software, Inc., Publ. Division, 1987.
- Polyak B.T. A new method of stochastic approximation type // Avtomatika i Telemekhanika. 1990. V. 51. P. 98—107.
- Reddi S.J., Kale S., Kumar S. On the convergence of adam and beyond // Inter. Conf. Learn. Representat., 2018.
- Robbins H., Monro S. A stochastic approximation method // Ann. Math. Statistic. 1951. V. 22. P. 400—407.
- Sadiev A., Beznosikov A., Almansoori A. J., Kamzolov D., Tappenden R., Tak´aˇc M. Stochastic gradient methods with preconditioned updates // arXiv preprint arXiv:2206.00285, 2022.
- Schaipp F., Gower R. M., Ulbrich M. A stochastic proximal polyak step size // arXiv preprint arXiv:2301.04935, 2023.
- Schaipp F., Ohana R., Eickenberg M., Defazio A., Gower R. M. Momo: Momentum models for adaptive learning rates // arXiv preprint arXiv:2305.07583, 2023.
- Shi Zh., Sadiev A., Loizou N., Richt´arik P., Tak´aˇc M. AI-SARAH: Adaptive and implicit stochastic recursive gradient methods // Transact. Mach. Learn. Res., 2023.
- Tieleman T., Hinton G., et al. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude // COURSERA: Neural Networks for Machine Learn. 2012. V. 4. № 2. P. 26—31.
- Ward R., Wu X., Bottou L. Adagrad stepsizes: Sharp convergence over nonconvex landscapes // J. Mach. Learn. Res. 2020. V. 21. № 1. P. 9047—9076.
- Yao Zh., Gholami A., Shen Sh., Mustafa M., Keutzer K., Mahoney M. Adahessian: An adaptive second order optimizer for machine learning // Proceed. AAAI Conf. Artific. Intelligence. 2021. V. 35. P. 10665—10673.
Дополнительные файлы
