Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Об ускоренных методах для седловых задач с композитной структурой
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 433-467В данной работе рассматриваются сильно-выпукло сильно-вогнутые не билинейные седловые задачи с разными числами обусловленности по прямым и двойственным переменным. Во-первых, мы рассматриваем задачи с гладкими композитами, один из которых имеет структуру с конечной суммой. Для этой задачи мы предлагаем алгоритм уменьшения дисперсии с оценками сложности, превосходящими существующие ограничения в литературе. Во-вторых, мы рассматриваем седловые задачи конечной суммы с композитами и предлагаем несколько алгоритмов в зависимости от свойств составных членов. Когда составные члены являются гладкими, мы получаем лучшие оценки сложности, чем в литературе, включая оценки недавно предложенных почти оптимальных алгоритмов, которые не учитывают составную структуру задачи. Кроме того, наши алгоритмы позволяют разделить сложность, т. е. оценить для каждой функции в задаче количество вызовов оракула, достаточное для достижения заданной точности. Это важно, так как разные функции могут иметь разную арифметическую сложность оракула, а дорогие оракулы желательно вызывать реже, чем дешевые. Ключевым моментом во всех этих результатах является наша общая схема для седловых задач, которая может представлять самостоятельный интерес. Эта структура, в свою очередь, основана на предложенном нами ускоренном мета-алгоритме для композитной оптимизации с вероятностными неточными оракулами и вероятностной неточностью в проксимальном отображении, которые также могут представлять самостоятельный интерес.
Ключевые слова: седловая задача, минимаксная оптимизация, композитная оптимизация, ускоренные алгоритмы.
On Accelerated Methods for Saddle-Point Problems with Composite Structure
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 433-467We consider strongly-convex-strongly-concave saddle-point problems with general non-bilinear objective and different condition numbers with respect to the primal and dual variables. First, we consider such problems with smooth composite terms, one of which has finite-sum structure. For this setting we propose a variance reduction algorithm with complexity estimates superior to the existing bounds in the literature. Second, we consider finite-sum saddle-point problems with composite terms and propose several algorithms depending on the properties of the composite terms. When the composite terms are smooth we obtain better complexity bounds than the ones in the literature, including the bounds of a recently proposed nearly-optimal algorithms which do not consider the composite structure of the problem. If the composite terms are prox-friendly, we propose a variance reduction algorithm that, on the one hand, is accelerated compared to existing variance reduction algorithms and, on the other hand, provides in the composite setting similar complexity bounds to the nearly-optimal algorithm which is designed for noncomposite setting. Besides, our algorithms allow one to separate the complexity bounds, i. e. estimate, for each part of the objective separately, the number of oracle calls that is sufficient to achieve a given accuracy. This is important since different parts can have different arithmetic complexity of the oracle, and it is desired to call expensive oracles less often than cheap oracles. The key thing to all these results is our general framework for saddle-point problems, which may be of independent interest. This framework, in turn is based on our proposed Accelerated Meta-Algorithm for composite optimization with probabilistic inexact oracles and probabilistic inexactness in the proximal mapping, which may be of independent interest as well.
-
Решение негладких распределенных минимаксных задач с применением техники сглаживания
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 469-480Распределенные седловые задачи имеют множество различных приложений в оптимизации, теории игр и машинном обучении. Например, обучение генеративных состязательных сетей может быть представлено как минимаксная задача, а также задача обучения линейных моделей с регуляризатором может быть переписана как задача поиска седловой точки. В данной статье исследуются распределенные негладкие седловые задачи с липшицевыми целевыми функциями (возможно, недифференцируемыми). Целевая функция представляется в виде суммы нескольких слагаемых, распределенных между группой вычислительных узлов. Каждый узел имеет доступ к локально хранимой функции. Узлы, или агенты, обмениваются информацией через некоторую коммуникационную сеть, которая может быть централизованной или децентрализованной. В централизованной сети есть универсальный агрегатор информации (сервер или центральный узел), который напрямую взаимодействует с каждым из агентов и, следовательно, может координировать процесс оптимизации. В децентрализованной сети все узлы равноправны, серверный узел отсутствует, и каждый агент может общаться только со своими непосредственными соседями.
Мы предполагаем, что каждый из узлов локально хранит свою целевую функцию и может вычислить ее значение в заданных точках, т. е. имеет доступ к оракулу нулевого порядка. Информация нулевого порядка используется, когда градиент функции является трудно вычислимым, а также когда его невозможно вычислить или когда функция не дифференцируема. Например, в задачах обучения с подкреплением необходимо сгенерировать траекторию для оценки текущей стратегии. Этот процесс генерирования траектории и оценки политики можно интерпретировать как вычисление значения функции. Мы предлагаем подход, использующий технику сглаживания, т. е. применяющий метод первого порядка к сглаженной версии исходной функции. Можно показать, что стохастический градиент сглаженной функции можно рассматривать как случайную двухточечную аппроксимацию градиента исходной функции. Подходы, основанные на сглаживании, были изучены для распределенной минимизации нулевого порядка, и наша статья обобщает метод сглаживания целевой функции на седловые задачи.
Ключевые слова: выпуклая оптимизация, распределенная оптимизация.
Nonsmooth Distributed Min-Max Optimization Using the Smoothing Technique
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 469-480Distributed saddle point problems (SPPs) have numerous applications in optimization, matrix games and machine learning. For example, the training of generated adversarial networks is represented as a min-max optimization problem, and training regularized linear models can be reformulated as an SPP as well. This paper studies distributed nonsmooth SPPs with Lipschitz-continuous objective functions. The objective function is represented as a sum of several components that are distributed between groups of computational nodes. The nodes, or agents, exchange information through some communication network that may be centralized or decentralized. A centralized network has a universal information aggregator (a server, or master node) that directly communicates to each of the agents and therefore can coordinate the optimization process. In a decentralized network, all the nodes are equal, the server node is not present, and each agent only communicates to its immediate neighbors.
We assume that each of the nodes locally holds its objective and can compute its value at given points, i. e. has access to zero-order oracle. Zero-order information is used when the gradient of the function is costly, not possible to compute or when the function is not differentiable. For example, in reinforcement learning one needs to generate a trajectory to evaluate the current policy. This policy evaluation process can be interpreted as the computation of the function value. We propose an approach that uses a smoothing technique, i. e., applies a first-order method to the smoothed version of the initial function. It can be shown that the stochastic gradient of the smoothed function can be viewed as a random two-point gradient approximation of the initial function. Smoothing approaches have been studied for distributed zero-order minimization, and our paper generalizes the smoothing technique on SPPs.
Keywords: convex optimization, distributed optimization.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"