Текущий выпуск Номер 2, 2024 Том 16

Все выпуски

Результаты поиска по 'convex functional':
Найдено статей: 39
  1. Стонякин Ф.С., Степанов А.Н., Гасников А.В., Титов А.А.
    Метод зеркального спуска для условных задач оптимизации с большими значениями норм субградиентов функциональных ограничений
    Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 301-317

    В работе рассмотрена задача минимизации выпуклого и, вообще говоря, негладкого функционала $f$ при наличии липшицевого неположительного выпуклого негладкого функционального ограничения $g$. При этом обоснованы оценки скорости сходимости методов адаптивного зеркального спуска также и для случая квазивыпуклого целевого функционала в случае выпуклого функционального ограничения. Предложен также метод и для задачи минимизации квазивыпуклого целевого функционала с квазивыпуклым неположительным функционалом ограничения. В работе предложен специальный подход к выбору шагов и количества итераций в алгоритме зеркального спуска для рассматриваемого класса задач. В случае когда значения норм (суб)градиентов функциональных ограничений достаточно велики, предложенный подход к выбору шагов и остановке метода может ускорить работу метода по сравнению с его аналогами. В работе приведены численные эксперименты, демонстрирующие преимущества использования таких методов. Также показано, что методы применимы к целевым функционалам различных уровней гладкости. В частности, рассмотрен класс гёльдеровых целевых функционалов. На базе техники рестартов для рассмотренного варианта метода зеркального спуска был предложен оптимальный метод решения задач оптимизации с сильно выпуклыми целевыми функционалами. Получены оценки скорости сходимости рассмотренных алгоритмов для выделенных классов оптимизационных задач. Доказанные оценки демонстрируют оптимальность рассматриваемых методов с точки зрения теории нижних оракульных оценок.

    Stonyakin F.S., Stepanov A.N., Gasnikov A.V., Titov A.A.
    Mirror descent for constrained optimization problems with large subgradient values of functional constraints
    Computer Research and Modeling, 2020, v. 12, no. 2, pp. 301-317

    The paper is devoted to the problem of minimization of the non-smooth functional $f$ with a non-positive non-smooth Lipschitz-continuous functional constraint. We consider the formulation of the problem in the case of quasi-convex functionals. We propose new strategies of step-sizes and adaptive stopping rules in Mirror Descent for the considered class of problems. It is shown that the methods are applicable to the objective functionals of various levels of smoothness. Applying a special restart technique to the considered version of Mirror Descent there was proposed an optimal method for optimization problems with strongly convex objective functionals. Estimates of the rate of convergence for the considered methods are obtained depending on the level of smoothness of the objective functional. These estimates indicate the optimality of the considered methods from the point of view of the theory of lower oracle bounds. In particular, the optimality of our approach for Höldercontinuous quasi-convex (sub)differentiable objective functionals is proved. In addition, the case of a quasiconvex objective functional and functional constraint was considered. In this paper, we consider the problem of minimizing a non-smooth functional $f$ in the presence of a Lipschitz-continuous non-positive non-smooth functional constraint $g$, and the problem statement in the cases of quasi-convex and strongly (quasi-)convex functionals is considered separately. The paper presents numerical experiments demonstrating the advantages of using the considered methods.

  2. Иванова А.С., Омельченко С.С., Котлярова Е.В., Матюхин В.В.
    Калибровка параметров модели расчета матрицы корреспонденций для г. Москвы
    Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 961-978

    В данной работе рассматривается задача восстановления матрицы корреспонденций для наблюдений реальных корреспонденций в г. Москве. Следуя общепринятому подходу [Гасников и др., 2013], транспортная сеть рассматривается как ориентированный граф, дуги которого соответствуют участкам дороги, а вершины графа — районы, из которых выезжают / в которые въезжают участники движения. Число жителей города считается постоянным. Задача восстановления матрицы корреспонденций состоит в расчете всех корреспонденций израйона $i$ в район $j$.

    Для восстановления матрицы предлагается использовать один из наиболее популярных в урбанистике способов расчета матрицы корреспонценций — энтропийная модель. В работе, в соответствии с работой [Вильсон, 1978], приводится описание эволюционного обоснования энтропийной модели, описывается основная идея перехода к решению задачи энтропийно-линейного программирования (ЭЛП) при расчете матрицы корреспонденций. Для решения полученной задачи ЭЛП предлагается перейти к двойственной задаче и решать задачу относительно двойственных переменных. В работе описывается несколько численных методов оптимизации для решения данной задачи: алгоритм Синхорна и ускоренный алгоритм Синхорна. Далее приводятся численные эксперименты для следующих вариантов функций затрат: линейная функция затрат и сумма степенной и логарифмической функции затрат. В данных функциях затраты представляют из себя некоторую комбинацию среднего времени в пути и расстояния между районами, которая зависит от параметров. Для каждого набора параметров функции затрат рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Мы предполагаем, что шум в восстановленной матрице корреспонденций является гауссовским, в результате в качестве метрики качества выступает среднеквадратичное отклонение. Данная задача представляет из себя задачу невыпуклой оптимизации. В статье приводится обзор безградиенных методов оптимизации для решения невыпуклых задач. Так как число параметров функции затрат небольшое, для определения оптимальных параметров функции затрат было выбрано использовать метод перебора по сетке значений. Таким образом, для каждого набора параметров рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Далее по минимальному значению невязки для каждой функции затрат определяется, для какой функции затрат и при каких значениях параметров восстановленная матрица наилучшим образом описывает реальные корреспонденции.

    Ivanova A.S., Omelchenko S.S., Kotliarova E.V., Matyukhin V.V.
    Calibration of model parameters for calculating correspondence matrix for Moscow
    Computer Research and Modeling, 2020, v. 12, no. 5, pp. 961-978

    In this paper, we consider the problem of restoring the correspondence matrix based on the observations of real correspondences in Moscow. Following the conventional approach [Gasnikov et al., 2013], the transport network is considered as a directed graph whose edges correspond to road sections and the graph vertices correspond to areas that the traffic participants leave or enter. The number of city residents is considered constant. The problem of restoring the correspondence matrix is to calculate all the correspondence from the $i$ area to the $j$ area.

    To restore the matrix, we propose to use one of the most popular methods of calculating the correspondence matrix in urban studies — the entropy model. In our work, which is based on the work [Wilson, 1978], we describe the evolutionary justification of the entropy model and the main idea of the transition to solving the problem of entropy-linear programming (ELP) in calculating the correspondence matrix. To solve the ELP problem, it is proposed to pass to the dual problem. In this paper, we describe several numerical optimization methods for solving this problem: the Sinkhorn method and the Accelerated Sinkhorn method. We provide numerical experiments for the following variants of cost functions: a linear cost function and a superposition of the power and logarithmic cost functions. In these functions, the cost is a combination of average time and distance between areas, which depends on the parameters. The correspondence matrix is calculated for multiple sets of parameters and then we calculate the quality of the restored matrix relative to the known correspondence matrix.

    We assume that the noise in the restored correspondence matrix is Gaussian, as a result, we use the standard deviation as a quality metric. The article provides an overview of gradient-free optimization methods for solving non-convex problems. Since the number of parameters of the cost function is small, we use the grid search method to find the optimal parameters of the cost function. Thus, the correspondence matrix calculated for each set of parameters and then the quality of the restored matrix is evaluated relative to the known correspondence matrix. Further, according to the minimum residual value for each cost function, we determine for which cost function and at what parameter values the restored matrix best describes real correspondence.

  3. Рукавишников В.А., Рукавишников А.В.
    Метод численного решения одной стационарной задачи гидродинамики в конвективной форме в $L$-образной области
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1291-1306

    Большой класс задач описывает физические процессы, протекающие в невыпуклых областях, содержащих угол больший 180 градусов на границе. Решение в окрестности такого угла сингулярно, а его отыскание, при использовании классических подходов, влечет за собой потерю точности. В представленной работе рассмотрены стационарные, линеаризованные с помощью итераций Пикара несжимаемые уравнения Навье – Стокса течения вязкой жидкости в конвективной форме в $L$-образной области. Определено $R_\nu$-обобщенное решение задачи в специальных множествах весовых пространств. Для нахождения приближенного $R_\nu$-обобщенного решения построен специальный метод конечных элементов. Во-первых, пространства конечно-элементных функций удовлетворяют закону сохранения массы в сильном смысле, то есть в узлах сетки. Для этой цели используется Скотт – Вогелиус конечно-элементная пара. Выполнение закона сохранения массы ведет к отысканию более точного с физической точки зрения решения. Во-вторых, базисные функции конечномерных пространств дополнены весовыми функциями как множителями, которые совпадают с расстоянием от точки до вершины тупого угла в $\delta$-окрестности точки сингулярности и радиусом $\delta$ вне ее. Степень весовой функции, как и параметр $\nu$ в определении $R_\nu$-обобщенного решения, так и радиус $\delta$-окрестности точки сингулярности являются свободными параметрами метода. Специально подобранная их комбинация приводит к увеличению порядка сходимости приближенного решения к точному решению задачи почти в два раза по сравнению с классическими подходами и достигает единицы по шагу сетки в нормах весовых пространств Соболева. Таким образом, установлено, что скорость сходимости не зависит от величины угла.

    Rukavishnikov V.A., Rukavishnikov A.V.

    The method of numerical solution of the one stationary hydrodynamics problem in convective form in $L$-shaped domain
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1291-1306

    An essential class of problems describes physical processes occurring in non-convex domains containing a corner greater than 180 degrees on the boundary. The solution in a neighborhood of a corner is singular and its finding using classical approaches entails a loss of accuracy. In the paper, we consider stationary, linearized by Picard’s iterations, Navier – Stokes equations governing the flow of a incompressible viscous fluid in the convection form in $L$-shaped domain. An $R_\nu$-generalized solution of the problem in special sets of weighted spaces is defined. A special finite element method to find an approximate $R_\nu$-generalized solution is constructed. Firstly, functions of the finite element spaces satisfy the law of conservation of mass in the strong sense, i.e. at the grid nodes. For this purpose, Scott – Vogelius element pair is used. The fulfillment of the condition of mass conservation leads to the finding more accurate, from a physical point of view, solution. Secondly, basis functions of the finite element spaces are supplemented by weight functions. The degree of the weight function, as well as the parameter $\nu$ in the definition of an $R_\nu$-generalized solution, and a radius of a neighborhood of the singularity point are free parameters of the method. A specially selected combination of them leads to an increase almost twice in the order of convergence rate of an approximate solution to the exact one in relation to the classical approaches. The convergence rate reaches the first order by the grid step in the norms of Sobolev weight spaces. Thus, numerically shown that the convergence rate does not depend on the corner value.

  4. Гладин Е.Л., Зайнуллина К.Э.
    Метод эллипсоидов для задач выпуклой стохастической оптимизации малой размерности
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1137-1147

    В статье рассматривается задача минимизации математического ожидания выпуклой функции. Задачи такого вида повсеместны в машинном обучении, а также часто возникают в ряде других приложений. На практике для их решения обычно используются процедуры типа стохастического градиентного спуска (SGD). В нашей работе предлагается решать такие задачи с использованием метода эллипсоидов с мини-батчингом. Алгоритм имеет линейную скорость сходимости и может оказаться эффективнее SGD в ряде задач. Это подтверждается в наших экспериментах, исходный код которых находится в открытом доступе. Для получения линейной скорости сходимости метода не требуется ни гладкость, ни сильная выпуклость целевой функции. Таким образом, сложность алгоритма не зависит от обусловленности задачи. В работе доказывается, что метод эллипсоидов с наперед заданной вероятностью находит решение с желаемой точностью при использовании мини-батчей, размер которых пропорционален точности в степени -2. Это позволяет выполнять алгоритм параллельно на большом числе процессоров, тогда как возможности для батчараллелизации процедур типа стохастического градиентного спуска весьма ограничены. Несмотря на быструю сходимость, общее количество вычислений градиента для метода эллипсоидов может получиться больше, чем для SGD, который неплохо сходится и при маленьком размере батча. Количество итераций метода эллипсоидов квадратично зависит от размерности задачи, поэтому метод подойдет для относительно небольших размерностей.

    Gladin E.L., Zainullina K.E.
    Ellipsoid method for convex stochastic optimization in small dimension
    Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1137-1147

    The article considers minimization of the expectation of convex function. Problems of this type often arise in machine learning and a variety of other applications. In practice, stochastic gradient descent (SGD) and similar procedures are usually used to solve such problems. We propose to use the ellipsoid method with mini-batching, which converges linearly and can be more efficient than SGD for a class of problems. This is verified by our experiments, which are publicly available. The algorithm does not require neither smoothness nor strong convexity of the objective to achieve linear convergence. Thus, its complexity does not depend on the conditional number of the problem. We prove that the method arrives at an approximate solution with given probability when using mini-batches of size proportional to the desired accuracy to the power −2. This enables efficient parallel execution of the algorithm, whereas possibilities for batch parallelization of SGD are rather limited. Despite fast convergence, ellipsoid method can result in a greater total number of calls to oracle than SGD, which works decently with small batches. Complexity is quadratic in dimension of the problem, hence the method is suitable for relatively small dimensionalities.

  5. Базарова А.И., Безносиков А.Н., Гасников А.В.
    Линейно сходящиеся безградиентные методы для минимизации параболической аппроксимации
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 239-255

    Нахождение глобального минимума невыпуклых функций — одна из ключевых и самых сложных проблем современной оптимизации. В этой работе мы рассматриваем отдельные классы невыпуклых задач, которые имеют четкий и выраженный глобальный минимум.

    В первой части статьи мы рассматриваем два класса «хороших» невыпуклых функций, которые могут быть ограничены снизу и сверху параболической функцией. Такой класс задач не исследован широко в литературе, хотя является довольно интересным с прикладной точки зрения. Более того, для таких задач методы первого и более высоких порядков могут быть абсолютно неэффективны при поиске глобального минимума. Это связано с тем, что функция может сильно осциллировать или может быть сильно зашумлена. Поэтому наши новые методы используют информацию только нулевого порядка и основаны на поиске по сетке. Размер и мелкость этой сетки, а значит, и гарантии скорости сходимости и оракульной сложности зависят от «хорошести» задачи. В частности, мы показываем, если функция зажата довольно близкими параболическими функциями, то сложность не зависит от размерности задачи. Мы показываем, что наши новые методы сходятся с линейной скоростью сходимости $\log(1/\varepsilon)$ к глобальному минимуму на кубе.

    Во второй части статьи мы рассматриваем задачу невыпуклой оптимизации с другого ракурса. Мы предполагаем, что целевая минимизируемая функция есть сумма выпуклой квадратичной задачи и невыпуклой «шумовой» функции, пропорциональной по модулю расстоянию до глобального решения. Рассмотрение функций с такими предположениями о шуме для методов нулевого порядка является новым в литературе. Для такой задачи мы используем классический безградиентный подход с аппроксимацией градиента через конечную разность. Мы показываем, как можно свести анализ сходимости для нашей задачи к стандартному анализу для задач выпуклой оптимизации. В частности, и для таких задач мы добиваемся линейной скорости сходимости.

    Экспериментальные результаты подтверждают работоспособность и практическую применимость всех полученных методов.

    Bazarova A.I., Beznosikov A.N., Gasnikov A.V.
    Linearly convergent gradient-free methods for minimization of parabolic approximation
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 239-255

    Finding the global minimum of a nonconvex function is one of the key and most difficult problems of the modern optimization. In this paper we consider special classes of nonconvex problems which have a clear and distinct global minimum.

    In the first part of the paper we consider two classes of «good» nonconvex functions, which can be bounded below and above by a parabolic function. This class of problems has not been widely studied in the literature, although it is rather interesting from an applied point of view. Moreover, for such problems first-order and higher-order methods may be completely ineffective in finding a global minimum. This is due to the fact that the function may oscillate heavily or may be very noisy. Therefore, our new methods use only zero-order information and are based on grid search. The size and fineness of this grid, and hence the guarantee of convergence speed and oracle complexity, depend on the «goodness» of the problem. In particular, we show that if the function is bounded by fairly close parabolic functions, then the complexity is independent of the dimension of the problem. We show that our new methods converge with a linear convergence rate $\log(1/\varepsilon)$ to a global minimum on the cube.

    In the second part of the paper, we consider the nonconvex optimization problem from a different angle. We assume that the target minimizing function is the sum of the convex quadratic problem and a nonconvex «noise» function proportional to the distance to the global solution. Considering functions with such noise assumptions for zero-order methods is new in the literature. For such a problem, we use the classical gradient-free approach with gradient approximation through finite differences. We show how the convergence analysis for our problems can be reduced to the standard analysis for convex optimization problems. In particular, we achieve a linear convergence rate for such problems as well.

    Experimental results confirm the efficiency and practical applicability of all the obtained methods.

  6. Юдин Н.Е.
    Модифицированный метод Гаусса–Ньютона для решения гладкой системы нелинейных уравнений
    Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 697-723

    В работе предлагается новая версия метода Гаусса–Ньютона для решения системы нелинейных уравнений, основанная на идеях использования верхней оценки нормы невязки системы уравнений и квадратичной регуляризации. Предложенная версия метода Гаусса–Ньютона на практике фактически задает целое параметризованное семейство методов решения систем нелинейных уравнений и задач восстановления регрессионной зависимости. Разработанное семейство методов Гаусса–Ньютона состоит целиком из итеративных методов, включающих в себя также специальные формы алгоритмов Левенберга–Марквардта, с обобщением на случаи применения в неевклидовых нормированных пространствах. В разработанных методах используется локальная модель, осуществляющая параметризованное проксимальное отображение и допускающая на практике применение неточного оракула в формате «черного ящика» с ограничением на точность вычисления и на сложность вычисления. Для разработанного семейства методов приведен анализ эффективности в терминах количества итераций алгоритма, точности и сложности представления локальной модели и вычисления оракула, параметров размерности решаемой задачи с выводом локальной и глобальной сходимости при использовании произвольного оракула. В работе представлены условия глобальной сублинейной сходимости для предложенного семейства методов решения системы нелинейных уравнений, состоящих из гладких по Липшицу функций. В рамках дополнительных естественных предположений о невырожденности системы нелинейных функций установлена локальная суперлинейная сходимость для рассмотренного семейства методов. При выполнении условия Поляка–Лоясиевича для системы нелинейных уравнений доказана локальная и глобальная линейная сходимость рассмотренных методов Гаусса–Ньютона. Помимо теоретического обоснования методов, в работе рассматриваются вопросы их практической реализации. В частности, в проведенных экспериментах для точного оракула приводятся схемы эффективного вычисления в зависимости от параметров размерности решаемой задачи. Предложенное семейство методов объединяет в себе несколько существующих и часто используемых на практике модификаций метода Гаусса–Ньютона, позволяя получить гибкий и удобный в использовании метод, реализуемый на практике с помощью стандартных техник выпуклой оптимизации и вычислительной линейной алгебры.

    Yudin N.E.
    Modified Gauss–Newton method for solving a smooth system of nonlinear equations
    Computer Research and Modeling, 2021, v. 13, no. 4, pp. 697-723

    In this paper, we introduce a new version of Gauss–Newton method for solving a system of nonlinear equations based on ideas of the residual upper bound for a system of nonlinear equations and a quadratic regularization term. The introduced Gauss–Newton method in practice virtually forms the whole parameterized family of the methods solving systems of nonlinear equations and regression problems. The developed family of Gauss–Newton methods completely consists of iterative methods with generalization for cases of non-euclidean normed spaces, including special forms of Levenberg–Marquardt algorithms. The developed methods use the local model based on a parameterized proximal mapping allowing us to use an inexact oracle of «black–box» form with restrictions for the computational precision and computational complexity. We perform an efficiency analysis including global and local convergence for the developed family of methods with an arbitrary oracle in terms of iteration complexity, precision and complexity of both local model and oracle, problem dimensionality. We present global sublinear convergence rates for methods of the proposed family for solving a system of nonlinear equations, consisting of Lipschitz smooth functions. We prove local superlinear convergence under extra natural non-degeneracy assumptions for system of nonlinear functions. We prove both local and global linear convergence for a system of nonlinear equations under Polyak–Lojasiewicz condition for proposed Gauss– Newton methods. Besides theoretical justifications of methods we also consider practical implementation issues. In particular, for conducted experiments we present effective computational schemes for the exact oracle regarding to the dimensionality of a problem. The proposed family of methods unites several existing and frequent in practice Gauss–Newton method modifications, allowing us to construct a flexible and convenient method implementable using standard convex optimization and computational linear algebra techniques.

  7. Гладин Е.Л., Бородич Е.Д.
    Редукция дисперсии для минимаксных задач с небольшой размерностью одной из переменных
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 257-275

    Статья посвящена выпукло-вогнутым седловым задачам, в которых целевая функция является суммой большого числа слагаемых. Такие задачи привлекают значительное внимание математического сообщества в связи с множеством приложений в машинном обучении, включая adversarial learning, adversarial attacks и robust reinforcement learning, и это лишь некоторые из них. Отдельные функции в сумме обычно представляют собой ошибку, связанную с объектом из выборки. Кроме того, формулировка допускает (возможно, негладкий) композитный член. Такие слагаемые часто отражают регуляризацию в задачах машинного обучения. Предполагается, что размерность одной из групп переменных относительно мала (около сотни или меньше), а другой — велика. Такой случай возникает, например, при рассмотрении двойственной формулировки задачи минимизации с умеренным числом ограничений. Предлагаемый подход основан на использовании метода секущей плоскости Вайды для минимизации относительно внешнего блока переменных. Этот алгоритм оптимизации особенно эффективен, когда размерность задачи не очень велика. Неточный оракул для метода Вайды вычисляется через приближенное решение внутренней задачи максимизации, которая решается ускоренным алгоритмом с редукцией дисперсии Katyusha. Таким образом, мы используем структуру задачи для достижения быстрой сходимости. В исследовании получены отдельные оценки сложности для градиентов различных компонент относительно различных переменных. Предложенный подход накладывает слабые предположения о целевой функции. В частности, не требуется ни сильной выпуклости, ни гладкости относительно низкоразмерной группы переменных. Количество шагов предложенного алгоритма, а также арифметическая сложность каждого шага явно зависят от размерности внешней переменной, отсюда предположение, что она относительно мала.

    Gladin E.L., Borodich E.D.
    Variance reduction for minimax problems with a small dimension of one of the variables
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 257-275

    The paper is devoted to convex-concave saddle point problems where the objective is a sum of a large number of functions. Such problems attract considerable attention of the mathematical community due to the variety of applications in machine learning, including adversarial learning, adversarial attacks and robust reinforcement learning, to name a few. The individual functions in the sum usually represent losses related to examples from a data set. Additionally, the formulation admits a possibly nonsmooth composite term. Such terms often reflect regularization in machine learning problems. We assume that the dimension of one of the variable groups is relatively small (about a hundred or less), and the other one is large. This case arises, for example, when one considers the dual formulation for a minimization problem with a moderate number of constraints. The proposed approach is based on using Vaidya’s cutting plane method to minimize with respect to the outer block of variables. This optimization algorithm is especially effective when the dimension of the problem is not very large. An inexact oracle for Vaidya’s method is calculated via an approximate solution of the inner maximization problem, which is solved by the accelerated variance reduced algorithm Katyusha. Thus, we leverage the structure of the problem to achieve fast convergence. Separate complexity bounds for gradients of different components with respect to different variables are obtained in the study. The proposed approach is imposing very mild assumptions about the objective. In particular, neither strong convexity nor smoothness is required with respect to the low-dimensional variable group. The number of steps of the proposed algorithm as well as the arithmetic complexity of each step explicitly depend on the dimensionality of the outer variable, hence the assumption that it is relatively small.

  8. Плетнев Н.В.
    Ускоренные адаптивные по константам сильной выпуклости и Липшица для градиента методы первого порядка
    Компьютерные исследования и моделирование, 2021, т. 13, № 5, с. 947-963

    Работа посвящена построению эффективных и применимых к реальным задачам методов выпуклой оптимизации первого порядка, то есть использующих только значения целевой функции и ее производных. При построении используется быстрый градиентный метод OGM-G, который является оптимальным по оракульной сложности (числу вычислений градиента целевой функции), но при запуске требует знания констант сильной выпуклости и Липшица градиента для вычисления количества шагов и длины шага, требуемых для достижения заданной точности. Данное требование усложняет практическое использование метода. Предлагаются адаптивный по константе сильной выпуклости алгоритм ACGM, основанный на рестартах OGM-G с обновлениемо ценки константы сильной выпуклости, и адаптивный по константе Липшица градиента метод ALGM, в котором применение рестартов OGM-G дополнено подбором константы Липшица с проверкой условий гладкости, используемых в методе универсального градиентного спуска. При этом устраняются недостатки исходного метода, связанные с необходимостью знания данных констант, что делает возможным практическое использование. Доказывается, что оценки сложности построенных алгоритмов являются оптимальными с точностью до числового множителя. Для проверки полученных результатов проводятся эксперименты на модельных функциях и реальных задачах машинного обучения.

    Pletnev N.V.
    Fast adaptive by constants of strong-convexity and Lipschitz for gradient first order methods
    Computer Research and Modeling, 2021, v. 13, no. 5, pp. 947-963

    The work is devoted to the construction of efficient and applicable to real tasks first-order methods of convex optimization, that is, using only values of the target function and its derivatives. Construction uses OGMG, fast gradient method which is optimal by complexity, but requires to know the Lipschitz constant for gradient and the strong convexity constant to determine the number of steps and step length. This requirement makes practical usage very hard. An adaptive on the constant for strong convexity algorithm ACGM is proposed, based on restarts of the OGM-G with update of the strong convexity constant estimate, and an adaptive on the Lipschitz constant for gradient ALGM, in which the use of OGM-G restarts is supplemented by the selection of the Lipschitz constant with verification of the smoothness conditions used in the universal gradient descent method. This eliminates the disadvantages of the original method associated with the need to know these constants, which makes practical usage possible. Optimality of estimates for the complexity of the constructed algorithms is proved. To verify the results obtained, experiments on model functions and real tasks from machine learning are carried out.

  9. Данилова М.Ю., Малиновский Г.С.
    Метод тяжелого шарика с усреднением
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 277-308

    Методы оптимизации первого порядка являются важным рабочим инструментов для широкого спектра современных приложений в разных областях, среди которых можно выделить экономику, физику, биологию, машинное обучение и управление. Среди методов первого порядка особого внимания заслуживают ускоренные (моментные) методы в силу их практической эффективности. Метод тяжелого шарика (heavy-ball method — HB) — один из первых ускоренных методов. Данный метод был разработан в 1964 г., и для него был проведен анализ сходимости для квадратичных сильно выпуклых функций. С тех пор были предложены и проанализированы разные варианты HB. В частности, HB известен своей простотой реализации и эффективностью при решении невыпуклых задач. Однако, как и другие моментные методы, он имеет немонотонное поведение; более того, при сходимости HB с оптимальными параметрами наблюдается нежелательное явление, называемое пик-эффектом. Чтобы решить эту проблему, в этой статье мы рассматриваем усредненную версию метода тяжелого шарика (averaged heavy-ball method — AHB). Мы показываем, что для квадратичных задач AHB имеет меньшее максимальное отклонение от решения, чем HB. Кроме того, для общих выпуклых и сильно выпуклых функций доказаны неускоренные скорости глобальной сходимости AHB, его версии WAHB cо взвешенным усреднением, а также для AHB с рестартами R-AHB. Насколько нам известно, такие гарантии для HB с усреднением не были явно доказаны для сильно выпуклых задач в существующих работах. Наконец, мы проводим несколько численных экспериментов для минимизации квадратичных и неквадратичных функций, чтобы продемонстрировать преимущества использования усреднения для HB. Кроме того, мы также протестировали еще одну модификацию AHB, называемую методом tail-averaged heavy-ball (TAHB). В экспериментах мы наблюдали, что HB с правильно настроенной схемой усреднения сходится быстрее, чем HB без усреднения, и имеет меньшие осцилляции.

    Danilova M.Y., Malinovskiy G.S.
    Averaged heavy-ball method
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 277-308

    First-order optimization methods are workhorses in a wide range of modern applications in economics, physics, biology, machine learning, control, and other fields. Among other first-order methods accelerated and momentum ones obtain special attention because of their practical efficiency. The heavy-ball method (HB) is one of the first momentum methods. The method was proposed in 1964 and the first analysis was conducted for quadratic strongly convex functions. Since then a number of variations of HB have been proposed and analyzed. In particular, HB is known for its simplicity in implementation and its performance on nonconvex problems. However, as other momentum methods, it has nonmonotone behavior, and for optimal parameters, the method suffers from the so-called peak effect. To address this issue, in this paper, we consider an averaged version of the heavy-ball method (AHB). We show that for quadratic problems AHB has a smaller maximal deviation from the solution than HB. Moreover, for general convex and strongly convex functions, we prove non-accelerated rates of global convergence of AHB, its weighted version WAHB, and for AHB with restarts R-AHB. To the best of our knowledge, such guarantees for HB with averaging were not explicitly proven for strongly convex problems in the existing works. Finally, we conduct several numerical experiments on minimizing quadratic and nonquadratic functions to demonstrate the advantages of using averaging for HB. Moreover, we also tested one more modification of AHB called the tail-averaged heavy-ball method (TAHB). In the experiments, we observed that HB with a properly adjusted averaging scheme converges faster than HB without averaging and has smaller oscillations.

  10. Плетнев Н.В., Матюхин В.В.
    О модификации метода покомпонентного спуска для решения некоторых обратных задач математической физики
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 301-316

    Статья посвящена решению некорректно поставленных задач математической физики для эллиптических и параболических уравнений, а именно задачи Коши для уравнения Гельмгольца и ретроспективной задачи Коши для уравнения теплопроводности с постоянными коэффициентами. Эти задачи сводятся к задачам выпуклой оптимизации в гильбертовом пространстве. Градиенты соответствующих функционалов вычисляются приближенно с помощью решения двух корректных задач. Предлагается метод решения исследуемых задач оптимизации — покомпонентный спуск в базисе из собственных функций связанного с задачей самосопряженного оператора. Если бы было возможно точное вычисление градиента, то этот метод давал бы сколь угодно точное решение задачи в зависимости от количества рассматриваемых элементов базиса. В реальных случаях возникновение погрешностей при вычислениях приводит к нарушению монотонности, что требует применения рестартов и ограничивает достижимое качество. В работе приводятся результаты экспериментов, подтверждающие эффективность построенного метода. Определяется, что новый подход превосходит подходы, основанные на использовании градиентных методов оптимизации: он позволяет достичь лучшего качества решения при значительно меньшем расходе вычислительных ресурсов. Предполагается, что построенный метод может быть обобщен и на другие задачи.

    Pletnev N.V., Matyukhin V.V.
    On the modification of the method of component descent for solving some inverse problems of mathematical physics
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 301-316

    The article is devoted to solving ill-posed problems of mathematical physics for elliptic and parabolic equations, such as the Cauchy problem for the Helmholtz equation and the retrospective Cauchy problem for the heat equation with constant coefficients. These problems are reduced to problems of convex optimization in Hilbert space. The gradients of the corresponding functionals are calculated approximately by solving two well-posed problems. A new method is proposed for solving the optimization problems under study, it is component-by-component descent in the basis of eigenfunctions of a self-adjoint operator associated with the problem. If it was possible to calculate the gradient exactly, this method would give an arbitrarily exact solution of the problem, depending on the number of considered elements of the basis. In real cases, the inaccuracy of calculations leads to a violation of monotonicity, which requires the use of restarts and limits the achievable quality. The paper presents the results of experiments confirming the effectiveness of the constructed method. It is determined that the new approach is superior to approaches based on the use of gradient optimization methods: it allows to achieve better quality of solution with significantly less computational resources. It is assumed that the constructed method can be generalized to other problems.

Страницы: предыдущая следующая последняя »

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.