Стохастический градиентный спуск с предобусловленным размером шага им. Б. Т. Поляка

Обложка

Цитировать

Полный текст

Аннотация

Стохастический градиентный спуск (SGD) является одним из множества методов оптимизации, используемых для решения задач машинного обучения. Практичность и простота подобных методов привлекают не только исследователей, но и инженеров машинного обучения из индустрии. Однако одна из главных слабостей таких методов заключается в необходимости ручной настройки размера шага для эффективного решения каждой конкретной оптимизационной задачи, функции потерь и данных. Стохастический градиентный спуск с размером шага им. Б.Т. Поляка (SPS) – это метод, который предлагает правило обновления, не требующее точной ручной настройки размера шага для решения задачи. Цель настоящей работы – расширить SPS с помощью таких приемов предобуславливания, как методы Хатчинсона, Adam и AdaGrad, что, в свою очередь, улучшит эффективность SPS в случае с плохой обусловленностью задачи и данных. Библ. 31. Фиг. 5.

Полный текст

  1. ВВЕДЕНИЕ

В настоящей статье мы рассматриваем задачу минимизации эмпирического риска (МЭР, англ. Empirical risk minimization, ERM), имеющую вид оптимизации конечной суммы:

wargminwdf(w):=1ni=1nfi(w), (1)

где wd является параметром весов и каждая целевая функция fi:d является гладкой и дважды дифференцируемой. Функция потерь fi(w) вычисляет разницу между предсказанием модели с параметрами весов w и целевым значением y. Целью является минимизация средней потери f(w)=1ni=1nfi(w) на n данных {(xi,yi)}i=1n, где xi — входная точка данных и yi — соответствующее целевое значение. В связи с нетривиальностью данной задачи решение в явном виде не всегда доступно, что подталкивает к применению численных методов оптимизации. Одним из таких численных методов является стохастический градиентный спуск (SGD) со следующим обновлением параметров весов:

wt+1=wtγtfi(wt), (2)

где γt — размер шага метода. Использование мини-батчей для датасетов с большой размерностью при обучении значительно уменьшает время сходимости к оптимальной точке w*. Были проведены обширные исследования в области стохастических методов оптимизации первого порядка начиная с фундаментальных работ Г. Роббинса и С. Монро [1], Б. Т. Поляка [2], Б. Т. Поляка и А. Б. Юдицкого [3], А. С. Немировского и др. [4] и ускоренные версии от Г. Лан [5]. Стоить отметить, что каждая комбинация функции потерь и датасета требует отдельной ручной настройки размера шага γt для поиска минимума, что делает γt гиперпараметром. Эта проблема ручной настройки γt является одним из мотивирующим факторов разработки методов с адаптивным размером шага, где γt заменена адаптивно меняющимся выражением по ходу оптимизации. В последнее время такие адаптивные методы получили широкое распространение (см. [6]–[13]) особенно в области обучения глубоких нейронных сетей.

Другое направление адаптивных стохастических методов — стохастический градиентный спуск с размером шага им. Б. Т. Поляка, который был вдохновлен размером шага для субградиентных методов, предложенным Борисом Теодоровичем Поляком в 1969 г. (см. [14], [15]). Позже был предложен стохастический вариант этого шага в [16], [17] и другие различные расширения в [18]–[24]. В следующем разделе мы детально разберем некоторые из них.

Одним из главных предметов обсуждения статьи является получение методов, предназначенных для решения задач с плохой обусловленностью с помощью техники предобуславливания градиента. Несмотря на то, что достижение идеального предобусловливания практически невозможно, наше решение использует различные техники, предложенные в таких адаптивных алгоритмах, как Adam [7] и AdaGrad [6], а также метод Хатчинсона [25].

Введем обозначения. Мы наделяем прямое пространство w ∈ E и двойственное пространство g ∈ E* сопряженными нормами ||w|| и ||g||* соответственно. Как частный случай для положительно-определенной матрицы Bd×d мы определяем двойственные евклидовы нормы: ||w||B = <Bw, w>1/2 и gB1=g,B1g1/2. Отметим, что ∇f(w) ∈ E и ∇2f(w)h ∈ E для h ∈ E. Оператор  определяется как покомпонентное умножение двух векторов, также известное как произведение Адамара. Мы обозначаем diag(v) диагональную матрицу по заданному вектору v и вектор diagonal(H)d как диагональ матрицы Hd×d. Для простоты мы также вводим следующее обозначение: (x)+ = max {0, x}.

  1. ОБЗОР ЛИТЕРАТУРЫ И СВЯЗАННЫЕ РАБОТЫ

Давайте введем общее правило обновления для рассматриваемых методов как

wt+1=wtγtBt1mt, (3)

где γt — размер шага, Ht = Bt–1 — специальная предобуславливающая матрица, и mt обозначает либо gt (градиент или его некоторая аппроксимация), либо первый момент градиента с параметром β1. Для объяснения этого обновления мы можем представить, что направление спуска mt шкалируется и вращается предобуславливающей матрицей Ht, и делается шаг с размером шага γt. Некоторые известные адаптивные методы первого порядка пользуются слегка упрощенной формой того же правила обновления:

wt+1=wtγtmt/vt, (4)

где mt и vt — первый и второй моменты, а mt/vt — покоординатное деление. Упомянутые типы шагов заключают в себе одну и ту же идею предобуславливания направления спуска и могут быть для простоты использованы взаимозаменяемо на протяжении всей статьи.

Таким же образом можно описать классические методы оптимизации. Например, для получения обновления SGD требуется обозначить предобуславливающую матрицу Bt = I, первый момент mt = gt и размер шага γt как константу. Стоить отметить, что γt в SGD является особенно важным гиперпараметром, который требует специальной настройки в соответствии с заданными данными и функцией потерь, а методы с адаптивным размером шага, некоторые из которых используют предобуславливающую матрицу, основанную на локальной кривизне функции потерь, были представлены для устранения этой проблемы.

Классические методы с размером шага им. Б. Т. Поляка не используют такую информацию, но, тем не менее, стоит умопянуть о том, как получить классический детерминистический размер шага им. Б. Т. Поляка. Рассмотрим выпуклую функцию f(w) и ограниченное сверху расстояние от wt + 1 до оптимальной точки w*:

wt+1w2Q(γ), где Q(γ)=wtw22γf(wt)f+γt2gt2.

Здесь gt обозначает субградиент функции f(w), а f* — минимум функции. Минимизируя верхнюю границу Q(γ), мы получаем размер шага им. Б. Т. Поляка и можем выразить его через правило обновления (3):

γt=argminγQ(γ)=f(wt)fgt2, Bt=I и mt=gt. (5)

Подробный разбор доказательства приведен в [26]. Заметим, что размер шага (5) может быть применен только в том случае, когда оптимальное значение f* уже известно. Несмотря на то, что иногда это значение известно как f* = 0 (например в задачах классификации), детерминистическая природа данного метода делает его непрактичным. Для решения этой проблемы был представлен стохастический градиентный спуск с размером шага им. Б. Т. Поляка (SPS, Stochastic Gradient Descent with Polyak Step-size) (см. [17]) вместе с более практичной версией SPSmax, который ограничивает γt постоянной γb:

γtSPS=fi(wt)fifi(wt)2 и γtSPSmax=minfi(wt)fifi(wt)2,γb. (6)

Метод SPS все еще требует знания fi*, но при определенных режимах оптимизации стандартной нерегуляризированной функции потерь, таких как квадратичная задача для линейной регрессии и логистическая регрессия для классификации, оптимальное решение fi* равно 0. Если f* = 0, то правило обновления SPS выражается как

γt=fi(wt)fi(wt)2, Ht=I и mt=fi(wt). (7)

Также существует другой способ получения метода SPS. Если предположить, что выполнено условие интерполяции, то мы можем решить (1) путем выборки i ∈ {1, 2,..., n} н. о. р.с.в. на каждой итерации t и решением нелинейного уравнения

wt+1=argminwdwwt2 т.ч. fi(w)=0. (8)

Хотя приведенная выше проекция может иметь аналитическое решение для некоторых простых функций потерь, для большинства нелинейных моделей, таких как глубокие нейронные сети, не существует решения в замкнутой форме. Поэтому вместо точного решения мы можем линеаризовать fi(w) вокруг текущей итерации wt, чтобы получить

wt+1=argminwdwwt2 т.ч. fi(wt)+<fi(wt),wwt>=0.

Правило обновления (7) и есть аналитическое решение этой задачи.

Вне режима интерполяции решение для (8) может не существовать. Поэтому вместо того, чтобы пытаться обнулить все функции потерь, мы можем попытаться приблизить их к нулю, минимизировав дополнительную переменную остатка (slack) следующим образом:

argminwd,s0sт.ч. fi(w)s для i=1, 2,, n;argminwd,s0s2т.ч. fi(w)s для i=1, 2,, n;

которые называются L1- и L2-остаточными минимизациями (см. [19]) соответственно. Отметим, что цель этого метода состоит в том, чтобы приблизить s к нулю, что позволяет решать задачи, в которых предположение интерполяции не выполняется.

  1. РЕЗУЛЬТАТЫ

В статье мы объединяем предобусловливание и варианты остаточно-регуляризованных методов SPS. Затем мы демонстрируем, что эти новые предобусловленные методы хорошо работают на плохо масштабированных и плохо обусловленных данных.

  • Усовершенствованный SPS. Мы расширили методы SPS и представили три новых алгоритма: PSPS, PSPSL1 и PSPSL2, которые используют метод Хатчинсона, Adam и AdaGrad для предобусловливания градиентного шага с использованием размера шага им. Б. Т. Поляка для взвешенной евклидовой нормы. Правила обновлений наших методов в явном виде описаны ниже.
  • Имплементация в PyTorch. Мы разработали практические варианты наших методов в качестве оптимизаторов PyTorch и опубликовали программный код в нашем репозитории GitHub1.
  • Эмпирические Результаты. Мы привели несколько экспериментов с двумя разными задачами, чтобы сравнить наши результаты с SGD, Adam, AdaGrad и с вариантами SPS, в которых не применяются какие-либо методы предобусловливания. Мы показали, что предложенные нами алгоритмы демонстрируют заметные улучшения на плохо обусловленных задачах.
  1. ПРЕДОБУСЛОВЛИВАНИЕ

Данные могут быть плохо масштабированы и/или плохо обусловлены, тогда предобусловливание градиента — это один из способов улучшить сходимость алгоритмов. Методы, использующие предобусловливание, имеют следующее общее правило обновления:

wt+1=wtγtBt1fi(wt),

где Btd×d — обратимая и положительно-определенная матрица. Метод Ньютона — один из самых наглядных примеров метода, использующего предобусловливание. В этом случае Bt=2f(wt) и γt = 1. Среди более современных и практичных методов с предобуславливанием отметим AdaHessian [27], Adagrad [6] и OASIS [28]. Эти методы включают кривизну функции потерь посредством адаптивных оценок Гессиана.

4.1. Метод Хатчинсона

Метод Хатчинсона (см. [25]) используется для оценки диагонали матрицы Гессиана. Для вычисления этой оценки метод Хатчинсона использует лишь несколько произведений Гессиана на вектор, которые, в свою очередь, можно эффективно вычислить с помощью быстрого автоматического дифференцирования (см. [29]). Произведение матрицы Гессиана ∇2f(w) и фиксированного вектора z можно вычислить через производную градиента по направлению. Чтобы понять, как этот метод используется для предобусловливания, сначала мы покажем, что затраты на вычисление произведения Гессиана на вектор близки к двух вычислениям градиентов, т. е.

2f(w)z=(zTf(w)). (9)

Затем мы можем вычислить диагональ Гессиана, используя метод Хатчинсона:

diag(2f(w))=Ez(2f(w)z),

где z — случайный вектор с распределением Радемахера2 или нормальным распределением, а ∇2f(w)z вычисляется с помощью произведения Гессиана на вектор, заданного в (9).

Можно доказать, что математическое ожидание z(2f(w)z) является диагональю Гессиана (см. [30]). Используя это тождество, мы оцениваем диагональ Гессиана по заданному D0, генерируя случайный вектор z на каждой итерации и обновляя нашу оценку с использованием средневзвешенного значения следующим образом:

Dt=βDt1+(1β)diag(z2f(w)z),

где β ∈ (0,1) — параметр момента и

D0=1mi=1mdiag(zi2f(w0)zi).

Наконец, чтобы гарантировать, что Dt остается положительно-определенным, несмотря на возможную невыпуклость функций потерь, мы используем усечение и сохраняем только абсолютные значения элементов следующим образом: (D^t)j, j = max{α, |Dt| j, j}.

Algorithm 1. Аппроксимация диагонали Гессиана с использованием метода Хатчинсона

1: Ввод: β ∈ (0,1), α > 0

2: Инициализация: D0=1mi=1mdiag(zi2f(w0)zi)

3: for t = 1, 2,..., T do

4: Генерируем случайный вектор z из Радемахера/нормального распределения

5: Dt=βDt1+(1β)diag(z2f(w0)z)

6: (D^t)j, j = max{α,| Dt | j, j}

7: Вывод: D^T

4.2. Метод AdaGrad

AdaGrad — это метод стохастической оптимизации, который аппроксимирует Гессиан функции, чтобы адаптировать размер шага в зависимости от информации о кривизне. Ключевая идея заключается в использовании информации о кумулятивном квадрате градиента для шкалирования размера шага. В форме (4) правило обновления для AdaGrad может быть задано следующим образом:

mt=gt и vt=i=1tgigi.

Накопление всех предыдущих градиентов в предобуславливателе vt приводит к уменьшению размера шага γt, что повышает производительность при разреженных данных (нечастых признаках), при этом ухудшается в случае плотных данных.

4.3. Метод Adam

Представленный в [7] Adam разработан для преодоления недостатков других популярных алгоритмов оптимизации, таких как AdaGrad [6] и RMSProp [31], путем включения как адаптивного размера шага, так и обновлений на основе метода “тяжелого шарика” (momentum). Правило обновления Adam предполагает вычисление скользящего среднего как для первого, так и для второго моментов градиентов. Первый момент — это среднее значение градиентов, а второй момент — нецентрированная дисперсия градиентов. Правило обновления для Adam может быть выражено в терминах (4) следующим образом:

mt=(1β1)i=1tβ1tigi1β1t, vt=(1β2)i=1tβ2tigigi1β2t,

где 0 < β1, β2 < 1 — два гиперпараметра, называемых коэффициентами первого и второго моментов. Смещенные оценки корректируются путем деления их на члены коррекции смещения, которые являются степенями скоростей затухания β1 и β2 соответственно.

  1. ПРЕДОБУСЛОВЛЕННЫЙ СТОХАСТИЧЕСКИЙ ГРАДИЕНТНЫЙ СПУСК С РАЗМЕРОМ ШАГА ИМ. Б. Т. ПОЛЯКА

В этом разделе мы предлагаем новые методы, основанные на ранее описанных, таких как SPS. Прежде всего, чтобы описать их, мы рассмотрим задачу проекции на множество ограничений

wt+1=argminwdwwt2 т.ч. fi(w)=0. (10)

Обратите внимание, что ограничение fi(w)= 0 определено как условие интерполяции.

Определение 1. Мы предполагаем, что условие интерполяции выполняется для набора функций {fi(w)}ni = 1 по заданному набору данных {(xi, yi)}ni = 1 с неотрицательными функциями потерь fi(w) ≥ 0, когда

wd т.ч. fi(w)=0i{1,2,,n}.

Одним из представленных методов, используемых в настоящей работе, является использование предобуславливания для улучшения скорости сходимости в случае плохо обусловленных данных. Чтобы получить это, мы изменяем норму в проекции (10) на взвешенную норму, основанную на предобуславливателе Bt0. Другой важной частью является линейная аппроксимация условия интерполяции fi(w) = 0. Согласно разложению Тейлора функции fi(w), линейное приближение (первого порядка) задается через fi(w)fi(wt)+<fi(wt),wwt>. Мы используем это приближение, чтобы ослабить условие интерполяции, которое не допускает решения в явном виде для большинства нелинейных моделей. Другой способ получения аналитического решения — ввести дополнительную переменную остатка (описано позже).

Предобусловленный SPS. Мы рассматриваем дифференцируемую выпуклую функцию fi и линеаризацию условия интерполяции. Чтобы вывести предобусловленное правило обновления, мы используем взвешенную норму в проекции, полученный метод мы называем PSPS (Preconditioned Stochastic Gradient Descent with Polyak Step-size). В настоящей статье мы рассмотрим три варианта предобуславливания, а именно, метод Хатчинсона и предобуславливание оптимизаторов AdaGrad и Adam.

Лемма 1 (PSPS). Пусть Bt0 для всех t ≥ 0, тогда итеративный явный шаг для задачи

wt+1=argminwd12wwtBt2, т.ч. fi(wt)+<fi(wt),wwt>=0

выражается как

wt+1=wtfi(wt)||fi(wt)||Bt12Bt1fi(wt).

Отметим, что данный шаг может быть переформулирован в виде шага (3), где

γt=fi(wt)||fi(wt)||Bt12 и mt=fi(wt).

Аналогичным образом мы можем применить предобуславливание для методов с остатком и получить следующие два метода: PSPSL1 и PSPSL2.

Лемма 2 (PSPSL1). Пусть Bt0 для любых t ≥ 0 и μ, λ > 0, тогда явный вид шага для задачи

wt+1,st+1=argminwd,s012wwtBt2+μsst2+λs,т.ч. fi(wt)+fi(wt),wwts

выражается как

γtL1=(fi(wt)st+λ/2μ)+1/2μ+fi(wt)Bt12, γt=minγtL1,fi(wt)fi(wt)Bt12.

Лемма 3 (PSPSL2). Пусть Bt0 для любых t ≥ 0 и μ, λ > 0, тогда явный вид решения задачи

wt+1, st+1=argminwd,swwtBt2+μ(sst)2+λs2,т.ч. fi(wt)+fi(wt),wwts (11)

выражается как

wt+1=wt-fiwt-μλ^st+λ^+fiwtBt-12Bt-1fiwt,st+1=λ^μstfiwt-μλ^st+λ^+fiwtBt-12,

где λ^=1/μ+λ. Здесь остаточная параметр  заставляет s быть ближе к 0, пока µ не дает st + 1 быть далеко от st.

  1. ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ

В этом разделе мы представляем эксперименты, проведенные с использованием предложенных нами методов и некоторых из наиболее популярных оптимизаторов: SGD, Adam и AdaGrad. Выбор этих методов оправдан тем фактом, что все они, за исключением SGD, используют адаптивный размер шага. В наших экспериментах каждый из этих методов представлен с разными размерами шага, чтобы показать разницу в сходимости.

Мы использовали датасеты из LIBSVM3, а именно, mushrooms и colon-cancer, для иллюстрации эффективности предложенных методов, минимизирующих функцию потерь логистической регрессии и нелинейных наименьших квадратов в задачах бинарной классификации. Кроме того, каждый эксперимент дополнительно проводится на плохо обусловленной версии тех же наборов данных, где столбцы умножаются на вектор e={exp(xi)}i=1d, где xi генерируется из равномерного распределения с интервалом [−k, k]. На всех приведенных далее иллючтрациях термин k относится к этому коэффициенту шкалирования, где k = 0 — исходные данные.

Во время обучения предложенными методами мы применяли параметры остатка λ=0.01 и µ = 0.1. Для метода Хатчинсона мы применили α = 104 и β = 0,999. Гиперпараметры (за исключением размера шага) для других методов (SGD, Adam и т. д.) были сохранены в качестве значений по умолчанию. Все эксперименты проводились с пятью различными ключами генераторов случайности (seed), используя PyTorch 1.11.0.

Оптимизируемые функции. Пусть (xi,yi)i=1n — это данные из выбранного датасета. Логистическая регрессия определена следующим образом:

fLogReg(w)=1ni=1nlog(1+exp(yixiтw)),

где xid и yi ∈ {−1, +1}. Нелинейные наименьшие квадраты заданы как

fNLLSQ(w)=1ni=1n(yi1/(1+exp(xiтw)))2,

где yi ∈ {0, 1}.

На фиг. 3 мы сравниваем скорости сходимости SPS с предобуславливателем Adam и без него. Наблюдаем, что в случае плохо обусловленных данных нам необходимо точно настроить размер шага оптимизатора Adam, чтобы избежать расхождений, поскольку выбор одинаковых размеров шага в обоих версиях данных привело к расхождению с k = 6. Кроме того, мы можем наблюдать, как различные методы предобуславливания превосходят SPS без какого-либо предобуславливания как для исходных данных, так и для плохо обусловленных. Отсутствие необходимости ручной настройки размера шага является одним из преимуществ предобусловленных методов SPS. Аналогичные результаты можно наблюдать на фиг. 6 и 9 для датасета colon-cancer. На фиг. 3б мы видим, что шкалирование данных приводит к тому, что размер шага Adam приходится уменьшать по мере увеличения коэффициента шкалирования k, чтобы метод не расходился.

 

Фиг. 1. Метод Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете mushrooms

 

Фиг. 2. Методы AdaGrad vs PSPS с разным предобуславливанием для логистической регрессии на датасет mushrooms

 

Фиг. 3. Методы Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете colon-cancer

 

Мы также сравниваем наши методы с оригинальными SPS, SPSL1, SPSL2, SGD и Adam (фиг. 4 и 5).

 

Фиг. 4. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета colon-cancer

 

Фиг. 5. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета mushrooms

 

  1. ЗАКЛЮЧЕНИЕ

В статье мы изучили влияние предобуславливания на семейство методов SPS (стохастический градиентный спуск с размером шага им. Б. Т. Поляка). Мы предложили новые методы PSPS, PSPSL1, PSPSL2 в (11)–(13). Эксперименты проводились как в выпуклых, так и в невыпуклых случаях с двумя разными датасетами. В настоящей статье отсутствует теоретический анализ предлагаемых нами методов, который может быть проведен в качестве последующей исследовательской работы. Кроме того, интересно провести эксперименты с более сложными моделями, такими как глубокие нейронные сети.

1 https://github.com/fxrshed/ScaledSPS.

2 zi ∈ {−1, +1} с равной вероятностью.

3 https://www.csie.ntu.edu.tw/ cjlin/libsvmtools/datasets/

×

Об авторах

Ф. Абдухакимов

Университет искусственного интеллекта им. Мохамеда бин Заеда

Автор, ответственный за переписку.
Email: farshed888@gmail.com
ОАЭ, Абу-Даби

Ч. Сян

Университет искусственного интеллекта им. Мохамеда бин Заеда

Email: chulu.xiang@mbzuai.ac.ae
ОАЭ, Абу-Даби

Д. Камзолов

Университет искусственного интеллекта им. Мохамеда бин Заеда

Email: kamzolov.opt@gmail.com
ОАЭ, Абу-Даби

М. Такач

Университет искусственного интеллекта им. Мохамеда бин Заеда

Email: takac.mt@gmail.com
ОАЭ, Абу-Даби

Список литературы

  1. Bekas C., Kokiopoulou E., Saad Y. An estimator for the diagonal of a matrix // Appl. Numer. Math. 2007. V. 57. № 11. P. 1214—1229.
  2. Berrada L., Zisserman A., Kumar M. P. Training neural networks for and by interpolation. In Hal Daum´e III and Aarti Singh, eds. // Proceed. 37th Inter. Conf. Mach. Learn. 2020. V. 119. P. 799—809.
  3. Boyd S., Xiao L., Mutapcic A. Subgradient methods. lecture notes of EE392o, Stanford Univer., Autumn Quarter. 2023. V. 2004. P. 2004—2005.
  4. Christianson B. Automatic Hessians by reverse accumulation // IMA J. Numer. Analys. 1992. V. 12. № 2. P. 135—150.
  5. Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization // J. Mach. Learn. Res. 2011. V. 12. № 61. P. 2121—2159.
  6. Garrigos G., Gower R. M., Schaipp F. Function value learning: Adaptive learning rates based on the polyak stepsize and function splitting in erm // arXiv preprint arXiv:2307.14528, 2023.
  7. Gower R.M., Blondel M., Gazagnadou N., Pedregosa F. Cutting some slack for sgd with adaptive polyak stepsizes // arXiv preprint arXiv:2202.12328, 2022.
  8. Hutchinson M.F. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines // Comm. in Statistics-Simulation and Computat. 1989. V. 18. № 3. P. 1059—1076.
  9. Jahani M., Rusakov S., Shi Zh., Richt´arik P., Mahoney M. W., Tak´aˇc M. Doubly adaptive scaled algorithm for machine learning using second-order information // In 10th Inter. Conf. Learn. Representat. (ICLR2022), 2022.
  10. Jiang X., Stich S. U. Adaptive sgd with polyak stepsize and line-search: Robust convergence and variance reduction // arXiv preprint arXiv:2308.06058, 2023.
  11. Kingma D., Ba J. Adam: A method for stochastic optimization // Inter. Conf. Learn. Representat. (ICLR), San Diego, CA, USA, 2015.
  12. Lan G. An optimal method for stochastic composite optimization // Math. Program. 2012. V. 133. P. 365—397.
  13. Li Sh., Swartworth W. J., Tak´aˇc M., Needell D., Gower R. M. SP2: A second order stochastic polyak method // 11th Inter. Conf. on Learn. Representat., 2023.
  14. Li X., Orabona F. On the convergence of stochastic gradient descent with adaptive stepsizes. In Kamalika Chaudhuri and Masashi Sugiyama, eds. // Proceed. 22nd Inter. Conf. Artific. Intelligence and Statistic. 2019. V. 89. P. 983—992.
  15. Loizou N., Vaswani Sh., Laradji I. H., Lacoste-Julien S. Stochastic polyak step-size for sgd: An adaptive learning rate for fast convergence. In Arindam Banerjee and Kenji Fukumizu, eds. // Proceed. 24th Inter. Conf. Artific. Intelligence and Statistic. 2021. V. 130. P. 1306—1314.
  16. Loshchilov I., Hutter F. Decoupled weight decay regularization // Inter. Conf. Learn. Representat., 2019.
  17. Nemirovski A., Juditsky A., Lan G., Shapiro A. Robust stochastic approximation approach to stochastic programming // SIAM J. Optimizat. 2009. V. 19. № 4. P. 1574—1609.
  18. Orvieto A., Lacoste-Julien S., Loizou N. Dynamics of sgd with stochastic polyak stepsizes: Truly adaptive variants and convergence to exact solution. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, and A. Oh, eds. // Adv. Neural Informat. Proces. System. 2022. V. 35. P. 26943—26954.
  19. Polyak B.T., Juditsky A. B. Acceleration of stochastic approximation by averaging.
  20. SIAM J. Control and Optimizat. 1992. V. 30. № 4. P. 838—855.
  21. Polyak B. T. Minimization of unsmooth functionals // USSR Comput. Math. and Math. Phys. 1969. V. 9. P. 14—29.
  22. Polyak B. T. Introduction to optimization. Optimization Software, Inc., Publ. Division, 1987.
  23. Polyak B.T. A new method of stochastic approximation type // Avtomatika i Telemekhanika. 1990. V. 51. P. 98—107.
  24. Reddi S.J., Kale S., Kumar S. On the convergence of adam and beyond // Inter. Conf. Learn. Representat., 2018.
  25. Robbins H., Monro S. A stochastic approximation method // Ann. Math. Statistic. 1951. V. 22. P. 400—407.
  26. Sadiev A., Beznosikov A., Almansoori A. J., Kamzolov D., Tappenden R., Tak´aˇc M. Stochastic gradient methods with preconditioned updates // arXiv preprint arXiv:2206.00285, 2022.
  27. Schaipp F., Gower R. M., Ulbrich M. A stochastic proximal polyak step size // arXiv preprint arXiv:2301.04935, 2023.
  28. Schaipp F., Ohana R., Eickenberg M., Defazio A., Gower R. M. Momo: Momentum models for adaptive learning rates // arXiv preprint arXiv:2305.07583, 2023.
  29. Shi Zh., Sadiev A., Loizou N., Richt´arik P., Tak´aˇc M. AI-SARAH: Adaptive and implicit stochastic recursive gradient methods // Transact. Mach. Learn. Res., 2023.
  30. Tieleman T., Hinton G., et al. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude // COURSERA: Neural Networks for Machine Learn. 2012. V. 4. № 2. P. 26—31.
  31. Ward R., Wu X., Bottou L. Adagrad stepsizes: Sharp convergence over nonconvex landscapes // J. Mach. Learn. Res. 2020. V. 21. № 1. P. 9047—9076.
  32. Yao Zh., Gholami A., Shen Sh., Mustafa M., Keutzer K., Mahoney M. Adahessian: An adaptive second order optimizer for machine learning // Proceed. AAAI Conf. Artific. Intelligence. 2021. V. 35. P. 10665—10673.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Фиг. 1. Метод Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете mushrooms

Скачать (151KB)
3. Фиг. 2. Методы AdaGrad vs PSPS с разным предобуславливанием для логистической регрессии на датасет mushrooms

Скачать (237KB)
4. Фиг. 3. Методы Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете colon-cancer

Скачать (565KB)
5. Фиг. 4. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета colon-cancer

6. Фиг. 5. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета mushrooms


© Российская академия наук, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».