Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Обоснование гипотезы об оптимальных оценках скорости сходимости численных методов выпуклой оптимизации высоких порядков
Компьютерные исследования и моделирование, 2018, т. 10, № 6, с. 737-753В данной работе рассматривается проксимальный быстрый градиентный метод Монтейро – Свайтера (2013 г.), в котором используется один шаг метода Ньютона для приближенного решения вспомогательной задачи на каждой итерации проксимального метода. Метод Монтейро – Свайтера является оптимальным (по числу вычислений градиента и гессиана оптимизируемой функции) для достаточно гладких задач выпуклой оптимизации в классе методов, использующих только градиент и гессиан оптимизируемой функции. За счет замены шага метода Ньютона на шаг недавно предложенного тензорного метода Ю. Е. Нестерова (2018 г.), а также за счет специального обобщения условия подбора шага в проксимальном внешнем быстром градиентном методе удалось предложить оптимальный тензорный метод, использующий старшие производные. В частности, такой тензорный метод, использующий производные до третьего порядка включительно, оказался достаточно практичным ввиду сложности итерации, сопоставимой со сложностью итерации метода Ньютона. Таким образом, получено конструктивное решение задачи, поставленной Ю. Е. Нестеровым в 2018 г., об устранении зазора в точных нижних и завышенных верхних оценках скорости сходимости для имеющихся на данный момент тензорных методов порядка $p \geqslant 3$.
Ключевые слова: метод Ньютона, матрица Гессе, нижние оценки, методы высокого порядка, тензорные методы, проксимальный быстрый градиентный метод.
The global rate of convergence for optimal tensor methods in smooth convex optimization
Computer Research and Modeling, 2018, v. 10, no. 6, pp. 737-753Просмотров за год: 75.In this work we consider Monteiro – Svaiter accelerated hybrid proximal extragradient (A-HPE) framework and accelerated Newton proximal extragradient (A-NPE) framework. The last framework contains an optimal method for rather smooth convex optimization problems with second-order oracle. We generalize A-NPE framework for higher order derivative oracle (schemes). We replace Newton’s type step in A-NPE that was used for auxiliary problem by Newton’s regularized (tensor) type step (Yu. Nesterov, 2018). Moreover we generalize large step A-HPE/A-NPE framework by replacing Monteiro – Svaiter’s large step condition so that this framework could work for high-order schemes. The main contribution of the paper is as follows: we propose optimal highorder methods for convex optimization problems. As far as we know for that moment there exist only zero, first and second order optimal methods that work according to the lower bounds. For higher order schemes there exists a gap between the lower bounds (Arjevani, Shamir, Shiff, 2017) and existing high-order (tensor) methods (Nesterov – Polyak, 2006; Yu.Nesterov, 2008; M. Baes, 2009; Yu.Nesterov, 2018). Asymptotically the ratio of the rates of convergences for the best existing methods and lower bounds is about 1.5. In this work we eliminate this gap and show that lower bounds are tight. We also consider rather smooth strongly convex optimization problems and show how to generalize the proposed methods to this case. The basic idea is to use restart technique until iteration sequence reach the region of quadratic convergence of Newton method and then use Newton method. One can show that the considered method converges with optimal rates up to a logarithmic factor. Note, that proposed in this work technique can be generalized in the case when we can’t solve auxiliary problem exactly, moreover we can’t even calculate the derivatives of the functional exactly. Moreover, the proposed technique can be generalized to the composite optimization problems and in particular to the constraint convex optimization problems. We also formulate a list of open questions that arise around the main result of this paper (optimal universal method of high order e.t.c.).
-
Решатель уравнения Больцмана на неструктурированных пространственных сетках
Компьютерные исследования и моделирование, 2019, т. 11, № 3, с. 427-447Целью данной работы является создание достаточно универсальной вычислительной программы (решателя) кинетического уравнения Больцмана для моделирования течений разреженного газа в устройствах сложной формы. Подробно описывается структура решателя, а его эффективность демонстрируется на примере расчета современной конструкции многотрубочного насоса Кнудсена. Решение уравнения Больцмана выполняется на фиксированных пространственной и скоростной сетках с помощью метода расщепления по физическим процессам. Дифференциальный оператор переноса аппроксимируется методом конечных разностей. Вычисление интеграла столкновений производится на основе консервативного проекционного метода.
Пространственная неструктурированная сетка строится с помощью внешнего генератора сеток и может включать в себя призмы, тетраэдры, гексаэдры и пирамиды. Сетка сгущается в областях течения с наибольшими градиентами рассчитываемых величин. Трехмерная скоростная сетка состоит из кубических ячеек равного объема.
Большой объем вычислений требует эффективного распараллеливания алгоритма, что реализовано на основе методики Message Passing Interface (MPI). Передача информации от одного узла MPI к другому осуществляется как разновидность граничного условия — таким образом, каждый MPI узел может хранить только ту часть сетки, которая имеет отношение конкретно к нему.
В результате получен график разности давлений в двух резервуарах, соединенных многотрубочным насосом Кнудсена в зависимости от числа Кнудсена, т. е. получена численными методами характеристика, ответственная за качество работы термомолекулярного микронасоса. Также показаны распределения давления, температуры и концентрации газа в установившемся состоянии внутри резервуаров и самого микронасоса.
Корректность работы солвера проверяется на тестах с распределением температуры газа между двух нагретых до разной температуры пластинок, а также в тесте с сохранением общей массы газа.
Корректность полученных данных для многотрубочного насоса Кнудсена проверяется на более точных скоростной и пространственной сетках, а также при использовании большего количества столкновений в интеграле столкновений за шаг.
Ключевые слова: уравнение Больцмана, эффект Кнудсена, неструктурированная сетка, микронасос, функция распределения, интеграл столкновений, проекционный метод.
The Solver of Boltzmann equation on unstructured spatial grids
Computer Research and Modeling, 2019, v. 11, no. 3, pp. 427-447Просмотров за год: 13.The purpose of this work is to develop a universal computer program (solver) which solves kinetic Boltzmann equation for simulations of rarefied gas flows in complexly shaped devices. The structure of the solver is described in details. Its efficiency is demonstrated on an example of calculations of a modern many tubes Knudsen pump. The kinetic Boltzmann equation is solved by finite-difference method on discrete grid in spatial and velocity spaces. The differential advection operator is approximated by finite difference method. The calculation of the collision integral is based on the conservative projection method.
In the developed computational program the unstructured spatial mesh is generated using GMSH and may include prisms, tetrahedrons, hexahedrons and pyramids. The mesh is denser in areas of flow with large gradients of gas parameters. A three-dimensional velocity grid consists of cubic cells of equal volume.
A huge amount of calculations requires effective parallelization of the algorithm which is implemented in the program with the use of Message Passing Interface (MPI) technology. An information transfer from one node to another is implemented as a kind of boundary condition. As a result, every MPI node contains the information about only its part of the grid.
The main result of the work is presented in the graph of pressure difference in 2 reservoirs connected by a multitube Knudsen pump from Knudsen number. This characteristic of the Knudsen pump obtained by numerical methods shows the quality of the pump. Distributions of pressure, temperature and gas concentration in a steady state inside the pump and the reservoirs are presented as well.
The correctness of the solver is checked using two special test solutions of more simple boundary problems — test with temperature distribution between 2 planes with different temperatures and test with conservation of total gas mass.
The correctness of the obtained data for multitube Knudsen pump is checked using denser spatial and velocity grids, using more collisions in collision integral per time step.
-
Ускоренные адаптивные по константам сильной выпуклости и Липшица для градиента методы первого порядка
Компьютерные исследования и моделирование, 2021, т. 13, № 5, с. 947-963Работа посвящена построению эффективных и применимых к реальным задачам методов выпуклой оптимизации первого порядка, то есть использующих только значения целевой функции и ее производных. При построении используется быстрый градиентный метод OGM-G, который является оптимальным по оракульной сложности (числу вычислений градиента целевой функции), но при запуске требует знания констант сильной выпуклости и Липшица градиента для вычисления количества шагов и длины шага, требуемых для достижения заданной точности. Данное требование усложняет практическое использование метода. Предлагаются адаптивный по константе сильной выпуклости алгоритм ACGM, основанный на рестартах OGM-G с обновлениемо ценки константы сильной выпуклости, и адаптивный по константе Липшица градиента метод ALGM, в котором применение рестартов OGM-G дополнено подбором константы Липшица с проверкой условий гладкости, используемых в методе универсального градиентного спуска. При этом устраняются недостатки исходного метода, связанные с необходимостью знания данных констант, что делает возможным практическое использование. Доказывается, что оценки сложности построенных алгоритмов являются оптимальными с точностью до числового множителя. Для проверки полученных результатов проводятся эксперименты на модельных функциях и реальных задачах машинного обучения.
Ключевые слова: быстрый градиентный метод, адаптивность по константе сильной выпуклости, адаптивность по константе Липшица градиента.
Fast adaptive by constants of strong-convexity and Lipschitz for gradient first order methods
Computer Research and Modeling, 2021, v. 13, no. 5, pp. 947-963The work is devoted to the construction of efficient and applicable to real tasks first-order methods of convex optimization, that is, using only values of the target function and its derivatives. Construction uses OGMG, fast gradient method which is optimal by complexity, but requires to know the Lipschitz constant for gradient and the strong convexity constant to determine the number of steps and step length. This requirement makes practical usage very hard. An adaptive on the constant for strong convexity algorithm ACGM is proposed, based on restarts of the OGM-G with update of the strong convexity constant estimate, and an adaptive on the Lipschitz constant for gradient ALGM, in which the use of OGM-G restarts is supplemented by the selection of the Lipschitz constant with verification of the smoothness conditions used in the universal gradient descent method. This eliminates the disadvantages of the original method associated with the need to know these constants, which makes practical usage possible. Optimality of estimates for the complexity of the constructed algorithms is proved. To verify the results obtained, experiments on model functions and real tasks from machine learning are carried out.
-
Поиск стохастических равновесий в транспортных сетях с помощью универсального прямо-двойственного градиентного метода
Компьютерные исследования и моделирование, 2018, т. 10, № 3, с. 335-345В статье рассматривается одна из задач транспортного моделирования — поиск равновесного распределения транспортных потоков в сети. Для описания временных издержек и распределения потоков в сети, представляемой с помощью графа, используется классическая модель Бэкмана. При этом поведение агентов не является полностью рациональным, что описывается посредством введения марковской логит-динамики: в каждый момент времени водительвыбирает маршрут случайно согласно распределению Гиббса с учетом текущих временных затрат на ребрах графа. Таким образом, задача сводится к поиску стационарного распределения для данной динамики, которое является стохастическим равновесием Нэша – Вардропа в соответствующей популяционной игре загрузки транспортной сети. Так как данная игра является потенциальной, эта задача эквивалентна минимизации некоторого функционала от распределения потоков, причем стохастичностьпро является в появлении энтропийной регуляризации. Для полученной задачи оптимизации построена двойственная задача. Для ее решения применен универсальный прямо-двойственный градиентный метод. Его особенность заключается в адаптивной настройке на локальную гладкость задачи, что особенно важно при сложной структуре целевой функции и невозможности априорно оценитьг ладкость с приемлемой точностью. Такая ситуация имеет место в рассматриваемой задаче, так как свойства функции сильно зависят от транспортного графа, на который мы не накладываем сильных ограничений. В статье приводится описание алгоритма, в том числе подробно рассмотрено применение численного дифференцирования для вычисления значения и градиента целевой функции. В работе представлены теоретическая оценка времени работы алгоритма и результаты численных экспериментов на примере небольшого американского города.
Ключевые слова: модель Бэкмана, равновесие Нэша – Вардропа, универсальный метод подобных треугольников, выпуклая оптимизация.
Searching stochastic equilibria in transport networks by universal primal-dual gradient method
Computer Research and Modeling, 2018, v. 10, no. 3, pp. 335-345Просмотров за год: 28.We consider one of the problems of transport modelling — searching the equilibrium distribution of traffic flows in the network. We use the classic Beckman’s model to describe time costs and flow distribution in the network represented by directed graph. Meanwhile agents’ behavior is not completely rational, what is described by the introduction of Markov logit dynamics: any driver selects a route randomly according to the Gibbs’ distribution taking into account current time costs on the edges of the graph. Thus, the problem is reduced to searching of the stationary distribution for this dynamics which is a stochastic Nash – Wardrope equilibrium in the corresponding population congestion game in the transport network. Since the game is potential, this problem is equivalent to the problem of minimization of some functional over flows distribution. The stochasticity is reflected in the appearance of the entropy regularization, in contrast to non-stochastic case. The dual problem is constructed to obtain a solution of the optimization problem. The universal primal-dual gradient method is applied. A major specificity of this method lies in an adaptive adjustment to the local smoothness of the problem, what is most important in case of the complex structure of the objective function and an inability to obtain a prior smoothness bound with acceptable accuracy. Such a situation occurs in the considered problem since the properties of the function strongly depend on the transport graph, on which we do not impose strong restrictions. The article describes the algorithm including the numerical differentiation for calculation of the objective function value and gradient. In addition, the paper represents a theoretical estimate of time complexity of the algorithm and the results of numerical experiments conducted on a small American town.
-
Решение задачи оптимального управления процессом метаногенеза на основе принципа максимума Понтрягина
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 357-367В работе представлена математическая модель, описывающая процесс получения биогаза из отходов животноводства. Данная модель описывает процессы, протекающие в биогазовой установке для мезофильной и термофильной сред, а также для непрерывного и периодического режимов поступления субстрата. Приведены найденные ранее для периодического режима значения коэффициентов этой модели, полученные путем решения задачи идентификации модели по экспериментальным данным с использованием генетического алгоритма.
Для модели метаногенеза сформулирована задача оптимального управления в форме задачи Лагранжа, критериальный функционал которой представляет собой выход биогаза за определенный промежуток времени. Управляющим параметром задачи служит скорость поступления субстрата в биогазовую установку. Предложен алгоритм решения данной задачи, основанный на численной реализации принципа максимума Понтрягина. При этом в качестве метода оптимизации применялся гибридный генетический алгоритм с дополнительным поиском в окрестности лучшего решения методом сопряженных градиентов. Данный численный метод решения задачи оптимального управления является универсальным и применим к широкому классу математических моделей.
В ходе исследования проанализированы различные режимы подачи субстрата в метантенк, температурные среды и виды сырья. Показано, что скорость образования биогаза при непрерывном режиме подачи сырья в 1.4–1.9 раза выше в мезофильной среде (в 1.9–3.2 — в термофильной среде), чем при периодическом режиме за период полной ферментации, что связано с большей скоростью подачи субстрата и большей концентрацией питательных веществ в субстрате. Однако выход биогаза за период полной ферментации при периодическом режиме вдвое выше выхода за период полной смены субстрата в метантенке при непрерывном режиме, что означает неполную переработку субстрата во втором случае. Скорость образования биогаза для термофильной среды при непрерывном режиме и оптимальной скорости подачи сырья втрое выше, чем для мезофильной среды. Сравнение выхода биогаза для различных типов сырья показывает, что наибольший выход биогаза наблюдается для отходов птицефабрик, наименьший — для отходов ферм КРС, что связано с содержанием питательных веществ в единице субстрата каждого вида.
Ключевые слова: метаногенез, биогаз, математическая модель, система дифференциальных уравнений, оптимальное управление, принцип максимума Понтрягина.
Solution of the problem of optimal control of the process of methanogenesis based on the Pontryagin maximum principle
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 357-367The paper presents a mathematical model that describes the process of obtaining biogas from livestock waste. This model describes the processes occurring in a biogas plant for mesophilic and thermophilic media, as well as for continuous and periodic modes of substrate inflow. The values of the coefficients of this model found earlier for the periodic mode, obtained by solving the problem of model identification from experimental data using a genetic algorithm, are given.
For the model of methanogenesis, an optimal control problem is formulated in the form of a Lagrange problem, whose criterial functionality is the output of biogas over a certain period of time. The controlling parameter of the task is the rate of substrate entry into the biogas plant. An algorithm for solving this problem is proposed, based on the numerical implementation of the Pontryagin maximum principle. In this case, a hybrid genetic algorithm with an additional search in the vicinity of the best solution using the method of conjugate gradients was used as an optimization method. This numerical method for solving an optimal control problem is universal and applicable to a wide class of mathematical models.
In the course of the study, various modes of submission of the substrate to the digesters, temperature environments and types of raw materials were analyzed. It is shown that the rate of biogas production in the continuous feed mode is 1.4–1.9 times higher in the mesophilic medium (1.9–3.2 in the thermophilic medium) than in the periodic mode over the period of complete fermentation, which is associated with a higher feed rate of the substrate and a greater concentration of nutrients in the substrate. However, the yield of biogas during the period of complete fermentation with a periodic mode is twice as high as the output over the period of a complete change of the substrate in the methane tank at a continuous mode, which means incomplete processing of the substrate in the second case. The rate of biogas formation for a thermophilic medium in continuous mode and the optimal rate of supply of raw materials is three times higher than for a mesophilic medium. Comparison of biogas output for various types of raw materials shows that the highest biogas output is observed for waste poultry farms, the least — for cattle farms waste, which is associated with the nutrient content in a unit of substrate of each type.
-
Градиентный метод с неточным оракулом для задач композитной невыпуклой оптимизации
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 321-334В этой статье мы предлагаем новый метод первого порядка для композитных невыпуклых задач минимизации с простыми ограничениями и неточным оракулом. Целевая функция задается как сумма «сложной», возможно, невыпуклой части с неточным оракулом и «простой» выпуклой части. Мы обобщаем понятие неточного оракула для выпуклых функций на случай невыпуклых функций. Неформально говоря, неточность оракула означает, что для «сложной» части в любой точке можно приближенно вычислить значение функции и построить квадратичную функцию, которая приближенно ограничивает эту функцию сверху. Рассматривается два возможных типа ошибки: контролируемая, которая может быть сде- лана сколь угодно маленькой, например, за счет решения вспомогательной задачи, и неконтролируемая. Примерами такой неточности являются: гладкие невыпуклые функции с неточным и непрерывным по Гёльдеру градиентом, функции, заданные вспомогательной равномерно вогнутой задачей максимизации, которая может быть решена лишь приближенно. Для введенного класса задачм ы предлагаем метод типа проекции градиента / зеркального спуска, который позволяет использовать различные прокс-функции для задания неевклидовой проекции на допустимое множество и более гибкой адаптации к геометрии допустимого множества; адаптивно выбирает контролируемую ошибку оракула и ошибку неевклидового проектирования; допускает неточное проксимальное отображение с двумя типами ошибки: контролируемой и неконтролируемой. Мы доказываем скорость сходимости нашего метода в терминах нормы обобщенного градиентного отображения и показываем, что в случае неточного непрерывного по Гёльдеру градиента наш метод является универсальным по отношению к параметру и константе Гёльдера. Это означает, что методу не нужно знание этих параметров для работы. При этом полученная оценка сложности является равномерно наилучшей при всех параметрах Гёльдера. Наконец, в частном случае показано, что малое значение нормы обобщенного градиентного отображения в точке означает, что в этой точке приближенно выполняется необходимое условие локального минимума.
Ключевые слова: невыпуклая оптимизация, композитная оптимизация, неточный оракул, непрерывный по Гёльдеру градиент, универсальный градиентный метод.
A gradient method with inexact oracle for composite nonconvex optimization
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 321-334In this paper, we develop a new first-order method for composite nonconvex minimization problems with simple constraints and inexact oracle. The objective function is given as a sum of «hard», possibly nonconvex part, and «simple» convex part. Informally speaking, oracle inexactness means that, for the «hard» part, at any point we can approximately calculate the value of the function and construct a quadratic function, which approximately bounds this function from above. We give several examples of such inexactness: smooth nonconvex functions with inexact H¨older-continuous gradient, functions given by the auxiliary uniformly concave maximization problem, which can be solved only approximately. For the introduced class of problems, we propose a gradient-type method, which allows one to use a different proximal setup to adapt to the geometry of the feasible set, adaptively chooses controlled oracle error, allows for inexact proximal mapping. We provide a convergence rate for our method in terms of the norm of generalized gradient mapping and show that, in the case of an inexact Hölder-continuous gradient, our method is universal with respect to Hölder parameters of the problem. Finally, in a particular case, we show that the small value of the norm of generalized gradient mapping at a point means that a necessary condition of local minimum approximately holds at that point.
-
Аналоги условия относительной сильной выпуклости для относительно гладких задач и адаптивные методы градиентного типа
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 413-432Данная статья посвящена повышению скоростных гарантий численных методов градиентного типа для относительно гладких и относительно липшицевых задач минимизации в случае дополнительных предположений о некоторых аналогах сильной выпуклости целевой функции. Рассматриваются два класса задач: выпуклые задачи с условием относительного функционального роста, а также задачи (вообще говоря, невыпуклые) с аналогом условия градиентного доминирования Поляка – Лоясиевича относительно дивергенции Брэгмана. Для первого типа задач мы предлагаем две схемы рестартов методов градиентного типа и обосновываем теоретические оценки сходимости двух алгоритмов с адаптивно подбираемыми параметрами, соответствующими относительной гладкости или липшицевости целевой функции. Первый из этих алгоритмов проще в части критерия выхода из итерации, но для него близкие к оптимальным вычислительные гарантии обоснованы только на классе относительно липшицевых задач. Процедура рестартов другого алгоритма, в свою очередь, позволила получить более универсальные теоретические результаты. Доказана близкая к оптимальной оценка сложности на классе выпуклых относительно липшицевых задач с условием функционального роста, а для класса относительно гладких задач с условием функционального роста получены гарантии линейной скорости сходимости. На классе задач с предложенным аналогом условия градиентного доминирования относительно дивергенции Брэгмана были получены оценки качества выдаваемого решения с использованием адаптивно подбираемых параметров. Также мы приводим результаты некоторых вычислительных экспериментов, иллюстрирующих работу методов для второго исследуемого в настоящей статье подхода. В качестве примеров мы рассмотрели линейную обратную задачу Пуассона (минимизация дивергенции Кульбака – Лейблера), ее регуляризованный вариант, позволяющий гарантировать относительную сильную выпуклость целевой функции, а также некоторый пример относительно гладкой и относительно сильно выпуклой задачи. В частности, с помощью расчетов показано, что относительно сильно выпуклая функция может не удовлетворять введенному относительному варианту условия градиентного доминирования.
Ключевые слова: относительная сильная выпуклость, относительная гладкость, относительный функциональный рост, относительное условие градиентного доминирования, адаптивный метод, рестарты.
Analogues of the relative strong convexity condition for relatively smooth problems and adaptive gradient-type methods
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 413-432This paper is devoted to some variants of improving the convergence rate guarantees of the gradient-type algorithms for relatively smooth and relatively Lipschitz-continuous problems in the case of additional information about some analogues of the strong convexity of the objective function. We consider two classes of problems, namely, convex problems with a relative functional growth condition, and problems (generally, non-convex) with an analogue of the Polyak – Lojasiewicz gradient dominance condition with respect to Bregman divergence. For the first type of problems, we propose two restart schemes for the gradient type methods and justify theoretical estimates of the convergence of two algorithms with adaptively chosen parameters corresponding to the relative smoothness or Lipschitz property of the objective function. The first of these algorithms is simpler in terms of the stopping criterion from the iteration, but for this algorithm, the near-optimal computational guarantees are justified only on the class of relatively Lipschitz-continuous problems. The restart procedure of another algorithm, in its turn, allowed us to obtain more universal theoretical results. We proved a near-optimal estimate of the complexity on the class of convex relatively Lipschitz continuous problems with a functional growth condition. We also obtained linear convergence rate guarantees on the class of relatively smooth problems with a functional growth condition. For a class of problems with an analogue of the gradient dominance condition with respect to the Bregman divergence, estimates of the quality of the output solution were obtained using adaptively selected parameters. We also present the results of some computational experiments illustrating the performance of the methods for the second approach at the conclusion of the paper. As examples, we considered a linear inverse Poisson problem (minimizing the Kullback – Leibler divergence), its regularized version which allows guaranteeing a relative strong convexity of the objective function, as well as an example of a relatively smooth and relatively strongly convex problem. In particular, calculations show that a relatively strongly convex function may not satisfy the relative variant of the gradient dominance condition.
-
Адаптивные методы первого порядка для относительносильновыпуклых задач оптимизации
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 445-472Настоящая статья посвящена некоторым адаптивным методам первого порядка для оптимизационных задач с относительно сильно выпуклыми функционалами. Недавно возникшее в оптимизации понятие относительной сильной выпуклости существенно расширяет класс выпуклых задач посредством замены в определении евклидовой нормы расстоянием в более общем смысле (точнее — расхождением или дивергенцией Брегмана). Важная особенность рассматриваемых в настоящей работе классов задач — обобщение стандартных требований к уровню гладкости целевых функционалов. Точнее говоря, рассматриваются относительно гладкие и относительно липшицевые целевые функционалы. Это может позволить применять рассматриваемую методику для решения многих прикладных задач, среди которых можно выделить задачу о нахождении общей точки системы эллипсоидов, а также задачу бинарной классификации с помощью метода опорных векторов. Если целевой функционал минимизационной задачи выпуклый, то условие относительной сильной выпуклости можно получить посредством регуляризации. В предлагаемой работе впервые предложены адаптивные методы градиентного типа для задач оптимизации с относительно сильно выпуклыми и относительно липшицевыми функционалами. Далее, в статье предложены универсальные методы для относительно сильно выпуклых задач оптимизации. Указанная методика основана на введении искусственной неточности в оптимизационную модель. Это позволило обосновать применимость предложенных методов на классе относительно гладких, так и на классе относительно липшицевых функционалов. При этом показано, как можно реализовать одновременно адаптивную настройку на значения параметров, соответствующих как гладкости задачи, так и введенной в оптимизационную модель искусственной неточности. Более того, показана оптимальность оценок сложности с точностью до умножения на константу для рассмотренных в работе универсальных методов градиентного типа для обоих классов относительно сильно выпуклых задач. Также в статье для задач выпуклого программирования с относительно липшицевыми функционалами обоснована возможность использования специальной схемы рестартов алгоритма зеркального спуска и доказана оптимальная оценка сложности такого алгоритма. Также приводятся результаты некоторых вычислительных экспериментов для сравнения работы предложенных в статье методов и анализируется целесообразность их применения.
Ключевые слова: адаптивный метод, относительно сильно выпуклый функционал, относи- тельно гладкий функционал, относительно липшицев функционал, оптимальный метод, зеркаль- ный спуск.
Adaptive first-order methods for relatively strongly convex optimization problems
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 445-472The article is devoted to first-order adaptive methods for optimization problems with relatively strongly convex functionals. The concept of relatively strong convexity significantly extends the classical concept of convexity by replacing the Euclidean norm in the definition by the distance in a more general sense (more precisely, by Bregman’s divergence). An important feature of the considered classes of problems is the reduced requirements concerting the level of smoothness of objective functionals. More precisely, we consider relatively smooth and relatively Lipschitz-continuous objective functionals, which allows us to apply the proposed techniques for solving many applied problems, such as the intersection of the ellipsoids problem (IEP), the Support Vector Machine (SVM) for a binary classification problem, etc. If the objective functional is convex, the condition of relatively strong convexity can be satisfied using the problem regularization. In this work, we propose adaptive gradient-type methods for optimization problems with relatively strongly convex and relatively Lipschitzcontinuous functionals for the first time. Further, we propose universal methods for relatively strongly convex optimization problems. This technique is based on introducing an artificial inaccuracy into the optimization model, so the proposed methods can be applied both to the case of relatively smooth and relatively Lipschitz-continuous functionals. Additionally, we demonstrate the optimality of the proposed universal gradient-type methods up to the multiplication by a constant for both classes of relatively strongly convex problems. Also, we show how to apply the technique of restarts of the mirror descent algorithm to solve relatively Lipschitz-continuous optimization problems. Moreover, we prove the optimal estimate of the rate of convergence of such a technique. Also, we present the results of numerical experiments to compare the performance of the proposed methods.
-
Решение негладких распределенных минимаксных задач с применением техники сглаживания
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 469-480Распределенные седловые задачи имеют множество различных приложений в оптимизации, теории игр и машинном обучении. Например, обучение генеративных состязательных сетей может быть представлено как минимаксная задача, а также задача обучения линейных моделей с регуляризатором может быть переписана как задача поиска седловой точки. В данной статье исследуются распределенные негладкие седловые задачи с липшицевыми целевыми функциями (возможно, недифференцируемыми). Целевая функция представляется в виде суммы нескольких слагаемых, распределенных между группой вычислительных узлов. Каждый узел имеет доступ к локально хранимой функции. Узлы, или агенты, обмениваются информацией через некоторую коммуникационную сеть, которая может быть централизованной или децентрализованной. В централизованной сети есть универсальный агрегатор информации (сервер или центральный узел), который напрямую взаимодействует с каждым из агентов и, следовательно, может координировать процесс оптимизации. В децентрализованной сети все узлы равноправны, серверный узел отсутствует, и каждый агент может общаться только со своими непосредственными соседями.
Мы предполагаем, что каждый из узлов локально хранит свою целевую функцию и может вычислить ее значение в заданных точках, т. е. имеет доступ к оракулу нулевого порядка. Информация нулевого порядка используется, когда градиент функции является трудно вычислимым, а также когда его невозможно вычислить или когда функция не дифференцируема. Например, в задачах обучения с подкреплением необходимо сгенерировать траекторию для оценки текущей стратегии. Этот процесс генерирования траектории и оценки политики можно интерпретировать как вычисление значения функции. Мы предлагаем подход, использующий технику сглаживания, т. е. применяющий метод первого порядка к сглаженной версии исходной функции. Можно показать, что стохастический градиент сглаженной функции можно рассматривать как случайную двухточечную аппроксимацию градиента исходной функции. Подходы, основанные на сглаживании, были изучены для распределенной минимизации нулевого порядка, и наша статья обобщает метод сглаживания целевой функции на седловые задачи.
Ключевые слова: выпуклая оптимизация, распределенная оптимизация.
Nonsmooth Distributed Min-Max Optimization Using the Smoothing Technique
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 469-480Distributed saddle point problems (SPPs) have numerous applications in optimization, matrix games and machine learning. For example, the training of generated adversarial networks is represented as a min-max optimization problem, and training regularized linear models can be reformulated as an SPP as well. This paper studies distributed nonsmooth SPPs with Lipschitz-continuous objective functions. The objective function is represented as a sum of several components that are distributed between groups of computational nodes. The nodes, or agents, exchange information through some communication network that may be centralized or decentralized. A centralized network has a universal information aggregator (a server, or master node) that directly communicates to each of the agents and therefore can coordinate the optimization process. In a decentralized network, all the nodes are equal, the server node is not present, and each agent only communicates to its immediate neighbors.
We assume that each of the nodes locally holds its objective and can compute its value at given points, i. e. has access to zero-order oracle. Zero-order information is used when the gradient of the function is costly, not possible to compute or when the function is not differentiable. For example, in reinforcement learning one needs to generate a trajectory to evaluate the current policy. This policy evaluation process can be interpreted as the computation of the function value. We propose an approach that uses a smoothing technique, i. e., applies a first-order method to the smoothed version of the initial function. It can be shown that the stochastic gradient of the smoothed function can be viewed as a random two-point gradient approximation of the initial function. Smoothing approaches have been studied for distributed zero-order minimization, and our paper generalizes the smoothing technique on SPPs.
Keywords: convex optimization, distributed optimization.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"