Stochastic Gradient Descent with Pre-Conditioned Polyak Step-Size

F. Abdukhakimov; Абдухакимов Ф.; Ch. Xiang; Сян Ч.; D. Kamzolov; Камзолов Д.; M. Takáč; Такач М.

doi:10.31857/S0044466924040016

Stochastic Gradient Descent with Pre-Conditioned Polyak Step-Size

Autores: Abdukhakimov F.¹, Xiang C.¹, Kamzolov D.¹, Takáč M.¹
Afiliações:
1. Mohamed bin Zayed University of Artificial Intelligence
Edição: Volume 64, Nº 4 (2024)
Páginas: 575-586
Seção: Optimal control
URL: https://ogarev-online.ru/0044-4669/article/view/269964
DOI: https://doi.org/10.31857/S0044466924040016
EDN: https://elibrary.ru/ZKLWGL
ID: 269964

Citar

Texto integral

Resumo
Texto integral
Sobre autores
Bibliografia
Arquivos suplementares
Estatísticas

Resumo

Stochastic Gradient Descent (SGD) is one of the many iterative optimization methods that are widely used in solving machine learning problems. These methods display valuable properties and attract researchers and industrial machine learning engineers with their simplicity. However, one of the weaknesses of this type of methods is the necessity to tune learning rate (step-size) for every loss function and dataset combination to solve an optimization problem and get an efficient performance in a given time budget. Stochastic Gradient Descent with Polyak Step-size (SPS) is a method that offers an update rule that alleviates the need of fine-tuning the learning rate of an optimizer. In this paper, we propose an extension of SPS that employs preconditioning techniques, such as Hutchinson’s method, Adam, and AdaGrad, to improve its performance on badly scaled and/or ill-conditioned datasets.

Palavras-chave

machine learning, optimization, adaptive step-size, Polyak step-size, preconditioning

Texto integral

ВВЕДЕНИЕ

В настоящей статье мы рассматриваем задачу минимизации эмпирического риска (МЭР, англ. Empirical risk minimization, ERM), имеющую вид оптимизации конечной суммы:

$w^{*} \in \underset{w \in ℝ^{d}}{argmin} \{f (w) : = \frac{1}{n} \sum_{i = 1}^{n} f_{i} (w)\}$ , (1)

где $w \in ℝ^{d}$ является параметром весов и каждая целевая функция $f_{i} : ℝ^{d} \to ℝ$ является гладкой и дважды дифференцируемой. Функция потерь f_i(w) вычисляет разницу между предсказанием модели с параметрами весов w и целевым значением y. Целью является минимизация средней потери $f (w) = \frac{1}{n} \sum_{i = 1}^{n} f_{i} (w)$ на n данных ${(x_{i}, y_{i})}_{i = 1}^{n}$ , где x_i — входная точка данных и y_i — соответствующее целевое значение. В связи с нетривиальностью данной задачи решение в явном виде не всегда доступно, что подталкивает к применению численных методов оптимизации. Одним из таких численных методов является стохастический градиентный спуск (SGD) со следующим обновлением параметров весов:

$w_{t + 1} = w_{t} - γ_{t} \nabla f_{i} (w_{t})$ , (2)

где $γ_{t} \in ℝ$ — размер шага метода. Использование мини-батчей для датасетов с большой размерностью при обучении значительно уменьшает время сходимости к оптимальной точке w^*. Были проведены обширные исследования в области стохастических методов оптимизации первого порядка начиная с фундаментальных работ Г. Роббинса и С. Монро [1], Б. Т. Поляка [2], Б. Т. Поляка и А. Б. Юдицкого [3], А. С. Немировского и др. [4] и ускоренные версии от Г. Лан [5]. Стоить отметить, что каждая комбинация функции потерь и датасета требует отдельной ручной настройки размера шага γ_t для поиска минимума, что делает γ_t гиперпараметром. Эта проблема ручной настройки γ_t является одним из мотивирующим факторов разработки методов с адаптивным размером шага, где γ_t заменена адаптивно меняющимся выражением по ходу оптимизации. В последнее время такие адаптивные методы получили широкое распространение (см. [6]–[13]) особенно в области обучения глубоких нейронных сетей.

Другое направление адаптивных стохастических методов — стохастический градиентный спуск с размером шага им. Б. Т. Поляка, который был вдохновлен размером шага для субградиентных методов, предложенным Борисом Теодоровичем Поляком в 1969 г. (см. [14], [15]). Позже был предложен стохастический вариант этого шага в [16], [17] и другие различные расширения в [18]–[24]. В следующем разделе мы детально разберем некоторые из них.

Одним из главных предметов обсуждения статьи является получение методов, предназначенных для решения задач с плохой обусловленностью с помощью техники предобуславливания градиента. Несмотря на то, что достижение идеального предобусловливания практически невозможно, наше решение использует различные техники, предложенные в таких адаптивных алгоритмах, как Adam [7] и AdaGrad [6], а также метод Хатчинсона [25].

Введем обозначения. Мы наделяем прямое пространство w ∈ E и двойственное пространство g ∈ E* сопряженными нормами ||w|| и ||g||_* соответственно. Как частный случай для положительно-определенной матрицы $B \in ℝ^{d \times d}$ мы определяем двойственные евклидовы нормы: ||w||_B = <Bw, w>^1/2 и ${||g||}_{B^{- 1}} = {〈g, B^{- 1} g〉}^{1 / 2}$ . Отметим, что ∇f(w) ∈ E и ∇²f(w)h ∈ E для h ∈ E. Оператор $⊙$ определяется как покомпонентное умножение двух векторов, также известное как произведение Адамара. Мы обозначаем diag(v) диагональную матрицу по заданному вектору v и вектор $d i a g o n a l (H) \in ℝ^{d}$ как диагональ матрицы $H \in ℝ^{d \times d}$ . Для простоты мы также вводим следующее обозначение: (x)₊ = max {0, x}.

ОБЗОР ЛИТЕРАТУРЫ И СВЯЗАННЫЕ РАБОТЫ

Давайте введем общее правило обновления для рассматриваемых методов как

$w_{t + 1} = w_{t} - γ_{t} B_{t}^{- 1} m_{t}$ , (3)

где γ_t — размер шага, H_t = B_t^–1 — специальная предобуславливающая матрица, и m_t обозначает либо g_t (градиент или его некоторая аппроксимация), либо первый момент градиента с параметром β₁. Для объяснения этого обновления мы можем представить, что направление спуска m_t шкалируется и вращается предобуславливающей матрицей H_t, и делается шаг с размером шага γ_t. Некоторые известные адаптивные методы первого порядка пользуются слегка упрощенной формой того же правила обновления:

$w_{t + 1} = w_{t} - γ_{t} m_{t} / v_{t}$ , (4)

где m_t и v_t — первый и второй моменты, а m_t/v_t — покоординатное деление. Упомянутые типы шагов заключают в себе одну и ту же идею предобуславливания направления спуска и могут быть для простоты использованы взаимозаменяемо на протяжении всей статьи.

Таким же образом можно описать классические методы оптимизации. Например, для получения обновления SGD требуется обозначить предобуславливающую матрицу B_t = I, первый момент m_t = g_tи размер шага γ_t как константу. Стоить отметить, что γ_t в SGD является особенно важным гиперпараметром, который требует специальной настройки в соответствии с заданными данными и функцией потерь, а методы с адаптивным размером шага, некоторые из которых используют предобуславливающую матрицу, основанную на локальной кривизне функции потерь, были представлены для устранения этой проблемы.

Классические методы с размером шага им. Б. Т. Поляка не используют такую информацию, но, тем не менее, стоит умопянуть о том, как получить классический детерминистический размер шага им. Б. Т. Поляка. Рассмотрим выпуклую функцию f(w) и ограниченное сверху расстояние от w_t_{+ 1} до оптимальной точки w^*:

${||w_{t + 1} - w^{*}||}^{2} \leq Q (γ), г д е Q (γ) = {||w_{t} - w^{*}||}^{2} - 2 γ [f (w_{t}) - f^{*}] + γ_{t}^{2} {||g_{t}||}_{*}^{2}$ .

Здесь g_t обозначает субградиент функции f(w), а f^* — минимум функции. Минимизируя верхнюю границу Q(γ), мы получаем размер шага им. Б. Т. Поляка и можем выразить его через правило обновления (3):

$γ_{t} = \underset{γ \in ℝ}{argmin} [Q (γ)] = \frac{f (w_{t}) - f^{*}}{{||g_{t}||}_{*}^{2}}, B_{t} = I и m_{t} = g_{t}$ . (5)

Подробный разбор доказательства приведен в [26]. Заметим, что размер шага (5) может быть применен только в том случае, когда оптимальное значение f^* уже известно. Несмотря на то, что иногда это значение известно как f^* = 0 (например в задачах классификации), детерминистическая природа данного метода делает его непрактичным. Для решения этой проблемы был представлен стохастический градиентный спуск с размером шага им. Б. Т. Поляка (SPS, Stochastic Gradient Descent with Polyak Step-size) (см. [17]) вместе с более практичной версией SPS_max, который ограничивает γ_t постоянной γ_b:

$γ_{t}^{S P S} = \frac{f_{i} (w_{t}) - f_{i}^{*}}{{||\nabla f_{i} (w_{t})||}_{*}^{2}} и γ_{t}^{S P S \max} = \min \{\frac{f_{i} (w_{t}) - f_{i}^{*}}{{||\nabla f_{i} (w_{t})||}_{*}^{2}}, γ_{b}\}$ . (6)

Метод SPS все еще требует знания f_i^*, но при определенных режимах оптимизации стандартной нерегуляризированной функции потерь, таких как квадратичная задача для линейной регрессии и логистическая регрессия для классификации, оптимальное решение f_i^* равно 0. Если f^* = 0, то правило обновления SPS выражается как

$γ_{t} = \frac{f_{i} (w_{t})}{∥ \nabla f_{i} (w_{t}) ∥_{*}^{2}}, H_{t} = I и m_{t} = \nabla f_{i} (w_{t})$ . (7)

Также существует другой способ получения метода SPS. Если предположить, что выполнено условие интерполяции, то мы можем решить (1) путем выборки i ∈ {1, 2,..., n} н. о. р.с.в. на каждой итерации t и решением нелинейного уравнения

$w_{t + 1} = \underset{w \in ℝ^{d}}{argmin} ∥ w - w^{t} ∥^{2} т . ч . f_{i} (w) = 0$ . (8)

Хотя приведенная выше проекция может иметь аналитическое решение для некоторых простых функций потерь, для большинства нелинейных моделей, таких как глубокие нейронные сети, не существует решения в замкнутой форме. Поэтому вместо точного решения мы можем линеаризовать f_i(w) вокруг текущей итерации w^t, чтобы получить

$w_{t + 1} = \underset{w \in ℝ^{d}}{argmin} {||w - w^{t}||}^{2} т . ч . f_{i} (w^{t}) + < \nabla f_{i} (w^{t}), w - w^{t} > = 0$ .

Правило обновления (7) и есть аналитическое решение этой задачи.

Вне режима интерполяции решение для (8) может не существовать. Поэтому вместо того, чтобы пытаться обнулить все функции потерь, мы можем попытаться приблизить их к нулю, минимизировав дополнительную переменную остатка (slack) следующим образом:

$\underset{w \in ℝ^{d}, s \geq 0}{argmin} s т . ч . f_{i} (w) \leq s д л я i = 1, 2, \dots, n; \underset{w \in ℝ^{d}, s \geq 0}{argmin} s^{2} т . ч . f_{i} (w) \leq s д л я i = 1, 2, \dots, n;$

которые называются L1- и L2-остаточными минимизациями (см. [19]) соответственно. Отметим, что цель этого метода состоит в том, чтобы приблизить s к нулю, что позволяет решать задачи, в которых предположение интерполяции не выполняется.

РЕЗУЛЬТАТЫ

В статье мы объединяем предобусловливание и варианты остаточно-регуляризованных методов SPS. Затем мы демонстрируем, что эти новые предобусловленные методы хорошо работают на плохо масштабированных и плохо обусловленных данных.

Усовершенствованный SPS. Мы расширили методы SPS и представили три новых алгоритма: PSPS, PSPSL1 и PSPSL2, которые используют метод Хатчинсона, Adam и AdaGrad для предобусловливания градиентного шага с использованием размера шага им. Б. Т. Поляка для взвешенной евклидовой нормы. Правила обновлений наших методов в явном виде описаны ниже.
Имплементация в PyTorch. Мы разработали практические варианты наших методов в качестве оптимизаторов PyTorch и опубликовали программный код в нашем репозитории GitHub^¹.
Эмпирические Результаты. Мы привели несколько экспериментов с двумя разными задачами, чтобы сравнить наши результаты с SGD, Adam, AdaGrad и с вариантами SPS, в которых не применяются какие-либо методы предобусловливания. Мы показали, что предложенные нами алгоритмы демонстрируют заметные улучшения на плохо обусловленных задачах.

ПРЕДОБУСЛОВЛИВАНИЕ

Данные могут быть плохо масштабированы и/или плохо обусловлены, тогда предобусловливание градиента — это один из способов улучшить сходимость алгоритмов. Методы, использующие предобусловливание, имеют следующее общее правило обновления:

$w_{t + 1} = w_{t} - γ_{t} B_{t}^{- 1} \nabla f_{i} (w_{t})$ ,

где $B_{t} \in ℝ^{d \times d}$ — обратимая и положительно-определенная матрица. Метод Ньютона — один из самых наглядных примеров метода, использующего предобусловливание. В этом случае $B_{t} = \nabla^{2} f (w_{t})$ и γ_t = 1. Среди более современных и практичных методов с предобуславливанием отметим AdaHessian [27], Adagrad [6] и OASIS [28]. Эти методы включают кривизну функции потерь посредством адаптивных оценок Гессиана.

4.1. Метод Хатчинсона

Метод Хатчинсона (см. [25]) используется для оценки диагонали матрицы Гессиана. Для вычисления этой оценки метод Хатчинсона использует лишь несколько произведений Гессиана на вектор, которые, в свою очередь, можно эффективно вычислить с помощью быстрого автоматического дифференцирования (см. [29]). Произведение матрицы Гессиана ∇²f(w) и фиксированного вектора z можно вычислить через производную градиента по направлению. Чтобы понять, как этот метод используется для предобусловливания, сначала мы покажем, что затраты на вычисление произведения Гессиана на вектор близки к двух вычислениям градиентов, т. е.

$\nabla^{2} f (w) z = \nabla (z^{T} \nabla f (w))$ . (9)

Затем мы можем вычислить диагональ Гессиана, используя метод Хатчинсона:

$d i a g (\nabla^{2} f (w)) = E [z ⊙ (\nabla^{2} f (w) z)]$ ,

где z — случайный вектор с распределением Радемахера^² или нормальным распределением, а ∇²f(w)z вычисляется с помощью произведения Гессиана на вектор, заданного в (9).

Можно доказать, что математическое ожидание $z ⊙ (\nabla^{2} f (w) z)$ является диагональю Гессиана (см. [30]). Используя это тождество, мы оцениваем диагональ Гессиана по заданному D₀, генерируя случайный вектор z на каждой итерации и обновляя нашу оценку с использованием средневзвешенного значения следующим образом:

$D_{t} = β D_{t - 1} + (1 - β) d i a g (z ⊙ \nabla^{2} f (w) z)$ ,

где β ∈ (0,1) — параметр момента и

$D_{0} = \frac{1}{m} \sum_{i = 1}^{m} d i a g (z_{i} ⊙ \nabla^{2} f (w_{0}) z_{i})$ .

Наконец, чтобы гарантировать, что D_tостается положительно-определенным, несмотря на возможную невыпуклость функций потерь, мы используем усечение и сохраняем только абсолютные значения элементов следующим образом: ( ${\hat{D}}_{t}$ )_j_{, j} = max{α, |D_t|_j_{, j}}.

Algorithm 1. Аппроксимация диагонали Гессиана с использованием метода Хатчинсона

1: Ввод: β ∈ (0,1), α > 0

2: Инициализация: $D_{0} = \frac{1}{m} \sum_{i = 1}^{m} d i a g (z_{i} ⊙ \nabla^{2} f (w_{0}) z_{i})$

3: for t = 1, 2,..., T do

4: Генерируем случайный вектор z из Радемахера/нормального распределения

5: $D_{t} = β D_{t - 1} + (1 - β) d i a g (z ⊙ \nabla^{2} f (w_{0}) z)$

6: ( ${\hat{D}}_{t}$ )_j_{, j} = max{α,| D_t |_j_{, j}}

7: Вывод: ${\hat{D}}_{T}$

4.2. Метод AdaGrad

AdaGrad — это метод стохастической оптимизации, который аппроксимирует Гессиан функции, чтобы адаптировать размер шага в зависимости от информации о кривизне. Ключевая идея заключается в использовании информации о кумулятивном квадрате градиента для шкалирования размера шага. В форме (4) правило обновления для AdaGrad может быть задано следующим образом:

$m_{t} = g_{t} и v_{t} = \sqrt{\sum_{i = 1}^{t} g_{i} ⊙ g_{i}}$ .

Накопление всех предыдущих градиентов в предобуславливателе v_t приводит к уменьшению размера шага γ_t, что повышает производительность при разреженных данных (нечастых признаках), при этом ухудшается в случае плотных данных.

4.3. Метод Adam

Представленный в [7] Adam разработан для преодоления недостатков других популярных алгоритмов оптимизации, таких как AdaGrad [6] и RMSProp [31], путем включения как адаптивного размера шага, так и обновлений на основе метода “тяжелого шарика” (momentum). Правило обновления Adam предполагает вычисление скользящего среднего как для первого, так и для второго моментов градиентов. Первый момент — это среднее значение градиентов, а второй момент — нецентрированная дисперсия градиентов. Правило обновления для Adam может быть выражено в терминах (4) следующим образом:

$m_{t} = \frac{(1 - β_{1}) \sum_{i = 1}^{t} β_{1}^{t - i} g_{i}}{1 - β_{1}^{t}}, v_{t} = \sqrt{\frac{(1 - β_{2}) \sum_{i = 1}^{t} β_{2}^{t - i} g_{i} ⊙ g_{i}}{1 - β_{2}^{t}}}$ ,

где 0 < β₁, β₂< 1 — два гиперпараметра, называемых коэффициентами первого и второго моментов. Смещенные оценки корректируются путем деления их на члены коррекции смещения, которые являются степенями скоростей затухания β₁ и β₂ соответственно.

ПРЕДОБУСЛОВЛЕННЫЙ СТОХАСТИЧЕСКИЙ ГРАДИЕНТНЫЙ СПУСК С РАЗМЕРОМ ШАГА ИМ. Б. Т. ПОЛЯКА

В этом разделе мы предлагаем новые методы, основанные на ранее описанных, таких как SPS. Прежде всего, чтобы описать их, мы рассмотрим задачу проекции на множество ограничений

$w_{t + 1} = \underset{w \in ℝ^{d}}{argmin} {||w - w_{t}||}^{2} т . ч . f_{i} (w) = 0$ . (10)

Обратите внимание, что ограничение f_i(w)= 0 определено как условие интерполяции.

Определение 1. Мы предполагаем, что условие интерполяции выполняется для набора функций {f_i(w)}ⁿ_i_{= 1} по заданному набору данных {(x_i, y_i)}ⁿ_i_{= 1}с неотрицательными функциями потерь f_i(w) ≥ 0, когда

$\exists w^{*} \in ℝ^{d} т . ч . f_{i} (w^{*}) = 0 \forall i \in {1,2, \dots, n}$ .

Одним из представленных методов, используемых в настоящей работе, является использование предобуславливания для улучшения скорости сходимости в случае плохо обусловленных данных. Чтобы получить это, мы изменяем норму в проекции (10) на взвешенную норму, основанную на предобуславливателе $B_{t} ≻ 0$ . Другой важной частью является линейная аппроксимация условия интерполяции f_i(w) = 0. Согласно разложению Тейлора функции f_i(w), линейное приближение (первого порядка) задается через $f_{i} (w) \approx f_{i} (w_{t}) + < \nabla f_{i} (w_{t}), w - w_{t} >$ . Мы используем это приближение, чтобы ослабить условие интерполяции, которое не допускает решения в явном виде для большинства нелинейных моделей. Другой способ получения аналитического решения — ввести дополнительную переменную остатка (описано позже).

Предобусловленный SPS. Мы рассматриваем дифференцируемую выпуклую функцию f_i и линеаризацию условия интерполяции. Чтобы вывести предобусловленное правило обновления, мы используем взвешенную норму в проекции, полученный метод мы называем PSPS (Preconditioned Stochastic Gradient Descent with Polyak Step-size). В настоящей статье мы рассмотрим три варианта предобуславливания, а именно, метод Хатчинсона и предобуславливание оптимизаторов AdaGrad и Adam.

Лемма 1 (PSPS). Пусть $B_{t} ≻ 0$ для всех t ≥ 0, тогда итеративный явный шаг для задачи

$w_{t + 1} = \underset{w \in ℝ^{d}}{a r g m i n} \frac{1}{2} {||w - w_{t}||}_{B_{t}}^{2}, т . ч . f_{i} (w_{t}) + < \nabla f_{i} (w_{t}), w - w_{t} > = 0$

выражается как

$w_{t + 1} = w_{t} - \frac{f_{i} (w_{t})}{| | \nabla f_{i} (w_{t}) | |_{B_{t}^{- 1}}^{2}} B_{t}^{- 1} \nabla f_{i} (w_{t})$ .

Отметим, что данный шаг может быть переформулирован в виде шага (3), где

$γ_{t} = \frac{f_{i} (w_{t})}{| | \nabla f_{i} (w_{t}) | |_{B_{t}^{- 1}}^{2}} и m_{t} = \nabla f_{i} (w_{t})$ .

Аналогичным образом мы можем применить предобуславливание для методов с остатком и получить следующие два метода: PSPSL1 и PSPSL2.

Лемма 2 (PSPSL1). Пусть $B_{t} ≻ 0$ для любых t ≥ 0 и μ, λ > 0, тогда явный вид шага для задачи

$\begin{matrix} w_{t + 1}, s_{t + 1} = \underset{w \in ℝ^{d}, s \geq 0}{a r g m i n} \frac{1}{2} ∥ w - w_{t} ∥_{B_{t}}^{2} + μ {(s - s_{t})}^{2} + λ s, \\ т . ч . f_{i} (w_{t}) + 〈\nabla f_{i} (w_{t}), w - w_{t}〉 \leq s \end{matrix}$

выражается как

$γ_{t}^{L 1} = \frac{{(f_{i} (w_{t}) - s_{t} + λ / 2 μ)}_{+}}{1 / 2 μ + ∥ \nabla f_{i} (w_{t}) ∥_{B_{t}^{- 1}}^{2}}, γ_{t} = \min \{γ_{t}^{L 1}, \frac{f_{i} (w_{t})}{∥ \nabla f_{i} (w_{t}) ∥_{B_{t}^{- 1}}^{2}}\}$ .

Лемма 3 (PSPSL2). Пусть $B_{t} ≻ 0$ для любых t ≥ 0 и μ, λ > 0, тогда явный вид решения задачи

$\begin{matrix} w_{t + 1}, s_{t + 1} = \underset{w \in ℝ^{d}, s \in ℝ}{a r g m i n} ∥ w - w_{t} ∥_{B_{t}}^{2} + μ {(s - s_{t})}^{2} + λ s^{2}, \\ т . ч . f_{i} (w_{t}) + 〈\nabla f_{i} (w_{t}), w - w_{t}〉 \leq s \end{matrix}$ (11)

выражается как

$w_{t + 1} = w_{t} - \frac{{(f_{i} (w_{t}) - μ \hat{λ} s_{t})}_{+}}{\hat{λ} + {||\nabla f_{i} (w_{t})||}_{B_{t}^{- 1}}^{2}} B_{t}^{- 1} \nabla f_{i} (w_{t}), s_{t + 1} = \hat{λ} (μ s_{t} \frac{{(f_{i} (w_{t}) - μ \hat{λ} s_{t})}_{+}}{\hat{λ} + {||\nabla f_{i} (w_{t})||}_{B_{t}^{- 1}}^{2}}),$

где $\hat{λ} = 1 / (μ + λ)$ . Здесь остаточная параметр заставляет s быть ближе к 0, пока µ не дает s_{t +}₁ быть далеко от s_t.

ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ

В этом разделе мы представляем эксперименты, проведенные с использованием предложенных нами методов и некоторых из наиболее популярных оптимизаторов: SGD, Adam и AdaGrad. Выбор этих методов оправдан тем фактом, что все они, за исключением SGD, используют адаптивный размер шага. В наших экспериментах каждый из этих методов представлен с разными размерами шага, чтобы показать разницу в сходимости.

Мы использовали датасеты из LIBSVM^³, а именно, mushrooms и colon-cancer, для иллюстрации эффективности предложенных методов, минимизирующих функцию потерь логистической регрессии и нелинейных наименьших квадратов в задачах бинарной классификации. Кроме того, каждый эксперимент дополнительно проводится на плохо обусловленной версии тех же наборов данных, где столбцы умножаются на вектор $e = {\exp (x_{i})}_{i = 1}^{d}$ , где x_i генерируется из равномерного распределения с интервалом [−k, k]. На всех приведенных далее иллючтрациях термин k относится к этому коэффициенту шкалирования, где k = 0 — исходные данные.

Во время обучения предложенными методами мы применяли параметры остатка $λ = 0.01$ и µ = 0.1. Для метода Хатчинсона мы применили α = 10⁻⁴ и β = 0,999. Гиперпараметры (за исключением размера шага) для других методов (SGD, Adam и т. д.) были сохранены в качестве значений по умолчанию. Все эксперименты проводились с пятью различными ключами генераторов случайности (seed), используя PyTorch 1.11.0.

Оптимизируемые функции. Пусть ${\{(x_{i}, y_{i})\}}_{i = 1}^{n}$ — это данные из выбранного датасета. Логистическая регрессия определена следующим образом:

$f_{L o g Re g} (w) = \frac{1}{n} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} x_{i}^{т} w))$ ,

где $x_{i} \in ℝ^{d}$ и y_i ∈ {−1, +1}. Нелинейные наименьшие квадраты заданы как

$f_{N L L S Q} (w) = \frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - 1 / (1 + \exp (- x_{i}^{т} w)))}^{2}$ ,

где y_i ∈ {0, 1}.

На фиг. 3 мы сравниваем скорости сходимости SPS с предобуславливателем Adam и без него. Наблюдаем, что в случае плохо обусловленных данных нам необходимо точно настроить размер шага оптимизатора Adam, чтобы избежать расхождений, поскольку выбор одинаковых размеров шага в обоих версиях данных привело к расхождению с k = 6. Кроме того, мы можем наблюдать, как различные методы предобуславливания превосходят SPS без какого-либо предобуславливания как для исходных данных, так и для плохо обусловленных. Отсутствие необходимости ручной настройки размера шага является одним из преимуществ предобусловленных методов SPS. Аналогичные результаты можно наблюдать на фиг. 6 и 9 для датасета colon-cancer. На фиг. 3б мы видим, что шкалирование данных приводит к тому, что размер шага Adam приходится уменьшать по мере увеличения коэффициента шкалирования k, чтобы метод не расходился.

Фиг. 1. Метод Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете mushrooms

Фиг. 2. Методы AdaGrad vs PSPS с разным предобуславливанием для логистической регрессии на датасет mushrooms

Фиг. 3. Методы Adam vs PSPS с разным предобуславливанием для логистической регрессии на датасете colon-cancer

Мы также сравниваем наши методы с оригинальными SPS, SPSL1, SPSL2, SGD и Adam (фиг. 4 и 5).

Фиг. 4. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета colon-cancer

Фиг. 5. Сравнение эффективности PSPSL1 и PSPSL2 с SPS, SGD и Adam для логистической регрессии на оригинальных и плохо обусловленных версиях датасета mushrooms

ЗАКЛЮЧЕНИЕ

В статье мы изучили влияние предобуславливания на семейство методов SPS (стохастический градиентный спуск с размером шага им. Б. Т. Поляка). Мы предложили новые методы PSPS, PSPSL1, PSPSL2 в (11)–(13). Эксперименты проводились как в выпуклых, так и в невыпуклых случаях с двумя разными датасетами. В настоящей статье отсутствует теоретический анализ предлагаемых нами методов, который может быть проведен в качестве последующей исследовательской работы. Кроме того, интересно провести эксперименты с более сложными моделями, такими как глубокие нейронные сети.

¹ https://github.com/fxrshed/ScaledSPS.

² z_i ∈ {−1, +1} с равной вероятностью.

³ https://www.csie.ntu.edu.tw/ cjlin/libsvmtools/datasets/

Sobre autores

F. Abdukhakimov

Mohamed bin Zayed University of Artificial Intelligence

Autor responsável pela correspondência
Email: farshed888@gmail.com
Emirados Árabes Unidos, Abu Dhabi

Ch. Xiang

Mohamed bin Zayed University of Artificial Intelligence

Email: chulu.xiang@mbzuai.ac.ae
Emirados Árabes Unidos, Abu Dhabi

D. Kamzolov

Mohamed bin Zayed University of Artificial Intelligence

Email: kamzolov.opt@gmail.com
Emirados Árabes Unidos, Abu Dhabi

M. Takáč

Mohamed bin Zayed University of Artificial Intelligence

Email: takac.mt@gmail.com
Emirados Árabes Unidos, Abu Dhabi

Bibliografia

Bekas C., Kokiopoulou E., Saad Y. An estimator for the diagonal of a matrix // Appl. Numer. Math. 2007. V. 57. № 11. P. 1214—1229.
Berrada L., Zisserman A., Kumar M. P. Training neural networks for and by interpolation. In Hal Daum´e III and Aarti Singh, eds. // Proceed. 37th Inter. Conf. Mach. Learn. 2020. V. 119. P. 799—809.
Boyd S., Xiao L., Mutapcic A. Subgradient methods. lecture notes of EE392o, Stanford Univer., Autumn Quarter. 2023. V. 2004. P. 2004—2005.
Christianson B. Automatic Hessians by reverse accumulation // IMA J. Numer. Analys. 1992. V. 12. № 2. P. 135—150.
Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization // J. Mach. Learn. Res. 2011. V. 12. № 61. P. 2121—2159.
Garrigos G., Gower R. M., Schaipp F. Function value learning: Adaptive learning rates based on the polyak stepsize and function splitting in erm // arXiv preprint arXiv:2307.14528, 2023.
Gower R.M., Blondel M., Gazagnadou N., Pedregosa F. Cutting some slack for sgd with adaptive polyak stepsizes // arXiv preprint arXiv:2202.12328, 2022.
Hutchinson M.F. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines // Comm. in Statistics-Simulation and Computat. 1989. V. 18. № 3. P. 1059—1076.
Jahani M., Rusakov S., Shi Zh., Richt´arik P., Mahoney M. W., Tak´aˇc M. Doubly adaptive scaled algorithm for machine learning using second-order information // In 10th Inter. Conf. Learn. Representat. (ICLR2022), 2022.
Jiang X., Stich S. U. Adaptive sgd with polyak stepsize and line-search: Robust convergence and variance reduction // arXiv preprint arXiv:2308.06058, 2023.
Kingma D., Ba J. Adam: A method for stochastic optimization // Inter. Conf. Learn. Representat. (ICLR), San Diego, CA, USA, 2015.
Lan G. An optimal method for stochastic composite optimization // Math. Program. 2012. V. 133. P. 365—397.
Li Sh., Swartworth W. J., Tak´aˇc M., Needell D., Gower R. M. SP2: A second order stochastic polyak method // 11th Inter. Conf. on Learn. Representat., 2023.
Li X., Orabona F. On the convergence of stochastic gradient descent with adaptive stepsizes. In Kamalika Chaudhuri and Masashi Sugiyama, eds. // Proceed. 22nd Inter. Conf. Artific. Intelligence and Statistic. 2019. V. 89. P. 983—992.
Loizou N., Vaswani Sh., Laradji I. H., Lacoste-Julien S. Stochastic polyak step-size for sgd: An adaptive learning rate for fast convergence. In Arindam Banerjee and Kenji Fukumizu, eds. // Proceed. 24th Inter. Conf. Artific. Intelligence and Statistic. 2021. V. 130. P. 1306—1314.
Loshchilov I., Hutter F. Decoupled weight decay regularization // Inter. Conf. Learn. Representat., 2019.
Nemirovski A., Juditsky A., Lan G., Shapiro A. Robust stochastic approximation approach to stochastic programming // SIAM J. Optimizat. 2009. V. 19. № 4. P. 1574—1609.
Orvieto A., Lacoste-Julien S., Loizou N. Dynamics of sgd with stochastic polyak stepsizes: Truly adaptive variants and convergence to exact solution. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, and A. Oh, eds. // Adv. Neural Informat. Proces. System. 2022. V. 35. P. 26943—26954.
Polyak B.T., Juditsky A. B. Acceleration of stochastic approximation by averaging.
SIAM J. Control and Optimizat. 1992. V. 30. № 4. P. 838—855.
Polyak B. T. Minimization of unsmooth functionals // USSR Comput. Math. and Math. Phys. 1969. V. 9. P. 14—29.
Polyak B. T. Introduction to optimization. Optimization Software, Inc., Publ. Division, 1987.
Polyak B.T. A new method of stochastic approximation type // Avtomatika i Telemekhanika. 1990. V. 51. P. 98—107.
Reddi S.J., Kale S., Kumar S. On the convergence of adam and beyond // Inter. Conf. Learn. Representat., 2018.
Robbins H., Monro S. A stochastic approximation method // Ann. Math. Statistic. 1951. V. 22. P. 400—407.
Sadiev A., Beznosikov A., Almansoori A. J., Kamzolov D., Tappenden R., Tak´aˇc M. Stochastic gradient methods with preconditioned updates // arXiv preprint arXiv:2206.00285, 2022.
Schaipp F., Gower R. M., Ulbrich M. A stochastic proximal polyak step size // arXiv preprint arXiv:2301.04935, 2023.
Schaipp F., Ohana R., Eickenberg M., Defazio A., Gower R. M. Momo: Momentum models for adaptive learning rates // arXiv preprint arXiv:2305.07583, 2023.
Shi Zh., Sadiev A., Loizou N., Richt´arik P., Tak´aˇc M. AI-SARAH: Adaptive and implicit stochastic recursive gradient methods // Transact. Mach. Learn. Res., 2023.
Tieleman T., Hinton G., et al. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude // COURSERA: Neural Networks for Machine Learn. 2012. V. 4. № 2. P. 26—31.
Ward R., Wu X., Bottou L. Adagrad stepsizes: Sharp convergence over nonconvex landscapes // J. Mach. Learn. Res. 2020. V. 21. № 1. P. 9047—9076.
Yao Zh., Gholami A., Shen Sh., Mustafa M., Keutzer K., Mahoney M. Adahessian: An adaptive second order optimizer for machine learning // Proceed. AAAI Conf. Artific. Intelligence. 2021. V. 35. P. 10665—10673.

Arquivos suplementares

Ação

1. JATS XML

Baixar

2. Fig. 1. Adam vs PSPS method with different preconditioning for logistic regression on the mushrooms dataset

Baixar (151KB)

Metadados

3. Fig. 2. AdaGrad vs PSPS methods with different preconditioning for logistic regression on the mushrooms dataset

Baixar (237KB)

Metadados

4. Fig. 3. Adam vs PSPS methods with different preconditioning for logistic regression on the colon-cancer dataset

Baixar (565KB)

Metadados

5. Fig. 4. Comparison of the performance of PSPSL1 and PSPSL2 with SPS, SGD and Adam for logistic regression on original and ill-conditioned versions of the colon-cancer dataset

Baixar (1MB)

Metadados

6. Fig. 5. Performance comparison of PSPSL1 and PSPSL2 with SPS, SGD and Adam for logistic regression on original and ill-conditioned versions of the mushrooms dataset

Baixar (1MB)

Metadados

Nome de usuário
Senha
Lembrar usuário

Esqueceu a senha?	Cadastro

Nome de usuário
Senha
Lembrar usuário

Esqueceu a senha?	Cadastro

Volume 65, Nº 6 (2025)

Volume 65, Nº 6 (2025)

Stochastic Gradient Descent with Pre-Conditioned Polyak Step-Size

Texto integral

Resumo

Palavras-chave

Texto integral

ВВЕДЕНИЕ

ОБЗОР ЛИТЕРАТУРЫ И СВЯЗАННЫЕ РАБОТЫ

РЕЗУЛЬТАТЫ

ПРЕДОБУСЛОВЛИВАНИЕ

4.1. Метод Хатчинсона

4.2. Метод AdaGrad

4.3. Метод Adam

ПРЕДОБУСЛОВЛЕННЫЙ СТОХАСТИЧЕСКИЙ ГРАДИЕНТНЫЙ СПУСК С РАЗМЕРОМ ШАГА ИМ. Б. Т. ПОЛЯКА

ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ

ЗАКЛЮЧЕНИЕ

Sobre autores

F. Abdukhakimov

Ch. Xiang

D. Kamzolov

M. Takáč

Bibliografia

Arquivos suplementares