Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Использование функций обратных связей для решения задач параметрического программирования
Компьютерные исследования и моделирование, 2023, т. 15, № 5, с. 1125-1151Рассматривается конечномерная оптимизационная задача, постановка которой, помимо искомых переменных, содержит параметры. Ее решение есть зависимость оптимальных значений переменных от параметров. В общем случае такие зависимости не являются функциями, поскольку могут быть неоднозначными, а в функциональном случае — быть недифференцируемыми. Кроме того, область их существования может оказаться уже области определения функций в условии задачи. Эти свойства затрудняют решение как исходной задачи, так и задач, в постановку которых входят данные зависимости. Для преодоления этих затруднений обычно применяются методы типа недифференцируемой оптимизации.
В статье предлагается альтернативный подход, позволяющий получать решения параметрических задач в форме, лишенной указанных свойств. Показывается, что такие представления могут исследоваться стандартными алгоритмами, основанными на формуле Тейлора. Данная форма есть функция, гладко аппроксимирующая решение исходной задачи. При этом величина погрешности аппроксимации регулируется специальным параметром. Предлагаемые аппроксимации строятся с помощью специальных функций, устанавливающих обратные связи между переменными и множителями Лагранжа. Приводится краткое описание этого метода для линейных задач с последующим обобщением на нелинейный случай.
Построение аппроксимации сводится к отысканию седловой точки модифицированной функции Лагранжа исходной задачи. Показывается, что необходимые условия существования такой седловой точки подобны условиям теоремы Каруша – Куна – Таккера, но не содержат в явном виде ограничений типа неравенств и условий дополняющей нежесткости. Эти необходимые условия аппроксимацию определяют неявным образом. Поэтому для вычисления ее дифференциальных характеристик используется теорема о неявных функциях. Эта же теорема применяется для уменьшения погрешности аппроксимации.
Особенности практической реализации метода функций обратных связей, включая оценки скорости сходимости к точному решению, демонстрируются для нескольких конкретных классов параметрических оптимизационных задач. Конкретно: рассматриваются задачи поиска глобального экстремума функций многих переменных и задачи на кратный экстремум (максимин-минимакс). Также рассмотрены оптимизационные задачи, возникающие при использовании многокритериальных математических моделей. Для каждого из этих классов приводятся демонстрационные примеры.
Ключевые слова: задача нелинейного программирования с параметрами, функция обратных связей, модифицированная функция Лагранжа, поиск глобального экстремума, минимакс, многокритериальная модель.
Using feedback functions to solve parametric programming problems
Computer Research and Modeling, 2023, v. 15, no. 5, pp. 1125-1151We consider a finite-dimensional optimization problem, the formulation of which in addition to the required variables contains parameters. The solution to this problem is a dependence of optimal values of variables on parameters. In general, these dependencies are not functions because they can have ambiguous meanings and in the functional case be nondifferentiable. In addition, their domain of definition may be narrower than the domains of definition of functions in the condition of the original problem. All these properties make it difficult to solve both the original parametric problem and other tasks, the statement of which includes these dependencies. To overcome these difficulties, usually methods such as non-differentiable optimization are used.
This article proposes an alternative approach that makes it possible to obtain solutions to parametric problems in a form devoid of the specified properties. It is shown that such representations can be explored using standard algorithms, based on the Taylor formula. This form is a function smoothly approximating the solution of the original problem for any parameter values, specified in its statement. In this case, the value of the approximation error is controlled by a special parameter. Construction of proposed approximations is performed using special functions that establish feedback (within optimality conditions for the original problem) between variables and Lagrange multipliers. This method is described for linear problems with subsequent generalization to the nonlinear case.
From a computational point of view the construction of the approximation consists in finding the saddle point of the modified Lagrange function of the original problem. Moreover, this modification is performed in a special way using feedback functions. It is shown that the necessary conditions for the existence of such a saddle point are similar to the conditions of the Karush – Kuhn – Tucker theorem, but do not contain constraints such as inequalities and conditions of complementary slackness. Necessary conditions for the existence of a saddle point determine this approximation implicitly. Therefore, to calculate its differential characteristics, the implicit function theorem is used. The same theorem is used to reduce the approximation error to an acceptable level.
Features of the practical implementation feedback function method, including estimates of the rate of convergence to the exact solution are demonstrated for several specific classes of parametric optimization problems. Specifically, tasks searching for the global extremum of functions of many variables and the problem of multiple extremum (maximin-minimax) are considered. Optimization problems that arise when using multicriteria mathematical models are also considered. For each of these classes, there are demo examples.
-
Преобразование исходных показателей технологического процесса выплавки стали для последующего моделирования
Компьютерные исследования и моделирование, 2017, т. 9, № 2, с. 187-199Эффективность производственного процесса непосредственно зависит от качества управления технологией, которая, в свою очередь, опирается на точность и оперативность обработки контрольно- измерительной информации. Разработка математических методов исследования системных связей и закономерностей функционирования и построение математических моделей с учетом структурных особенностей объекта исследований, а также написание программных продуктов для реализации данных методов являются актуальными задачами. Практика показала, что список параметров, имеющих место при исследовании сложного объекта современного производства, варьируется от нескольких десятков до нескольких сот наименований, причем степень воздействия каждого из факторов в начальный момент не ясна. Приступать к работе по непосредственному определению модели в этих условиях нельзя — объем требуемой информации может оказаться слишком велик, причем бóльшая часть работы по сбору этой информации будет проделана впустую из-за того, что степень влияния на параметры оптимизации большинства факторов из первоначального списка окажется пренебрежимо малой. Поэтому необходимым этапом при определении модели сложного объекта является работа по сокращению размерности факторного пространства. Большинство промышленных производств являются групповыми иерархическими процессами массового и крупносерийного производства, характеризующимися сотнями факторов. (Для примера реализации математических методов и апробации построенных моделей в основу были взяты данные Молдавского металлургического завода.) С целью исследования системных связей и закономерностей функционирования таких сложных объектов обычно выбираются несколько информативных параметров и осуществляется их выборочный контроль. В данной статье описывается последовательность приведения исходных показателей технологического процесса выплавки стали к виду, пригодному для построения математической модели с целью прогнозирования, внедрения новых видов стали и создание основы для разработки системы автоматизированного управления качеством продукции. В процессе преобразования выделяются следующие этапы: сбор и анализ исходных данных, построение таблицы слабокоррелированных параметров, сокращение факторного пространства с помощью корреляционных плеяд и метода весовых коэффициентов. Полученные результаты позволяют оптимизировать процесс построения модели многофакторного процесса.
Ключевые слова: плавка стали, исходная таблица данных, корреляционная матрица, корреляционные плеяды, матрица факторов, весовые коэффициенты.
Conversion of the initial indices of the technological process of the smelting of steel for the subsequent simulation
Computer Research and Modeling, 2017, v. 9, no. 2, pp. 187-199Просмотров за год: 6. Цитирований: 1 (РИНЦ).Efficiency of production directly depends on quality of the management of technology which, in turn, relies on the accuracy and efficiency of the processing of control and measuring information. Development of the mathematical methods of research of the system communications and regularities of functioning and creation of the mathematical models taking into account structural features of object of researches, and also writing of the software products for realization of these methods are an actual task. Practice has shown that the list of parameters that take place in the study of complex object of modern production, ranging from a few dozen to several hundred names, and the degree of influence of each factor in the initial time is not clear. Before working for the direct determination of the model in these circumstances, it is impossible — the amount of the required information may be too great, and most of the work on the collection of this information will be done in vain due to the fact that the degree of influence on the optimization of most factors of the original list would be negligible. Therefore, a necessary step in determining a model of a complex object is to work to reduce the dimension of the factor space. Most industrial plants are hierarchical group processes and mass volume production, characterized by hundreds of factors. (For an example of realization of the mathematical methods and the approbation of the constructed models data of the Moldavian steel works were taken in a basis.) To investigate the systemic linkages and patterns of functioning of such complex objects are usually chosen several informative parameters, and carried out their sampling. In this article the sequence of coercion of the initial indices of the technological process of the smelting of steel to the look suitable for creation of a mathematical model for the purpose of prediction is described. The implementations of new types became also creation of a basis for development of the system of automated management of quality of the production. In the course of weak correlation the following stages are selected: collection and the analysis of the basic data, creation of the table the correlated of the parameters, abbreviation of factor space by means of the correlative pleiads and a method of weight factors. The received results allow to optimize process of creation of the model of multiple-factor process.
-
Моделирование конвективно-радиационного теплопереноса в дифференциально обогреваемой вращающейся полости
Компьютерные исследования и моделирование, 2018, т. 10, № 2, с. 195-207Проведено математическое моделирование нестационарных режимов естественной конвекции и поверхностного излучения в замкнутой вращающейся квадратной полости. Рассматриваемая область решения имела две противоположные изотермические стенки, поддерживаемые при постоянных низкой и высокой температурах, остальные стенки являлись адиабатическими. Стенки считались диффузно-серыми. Анализируемая полость вращалась с постоянной угловой скоростью относительно оси, проходящей через центр полости и ориентированной ортогонально области решения. Математическая модель, сформулированная в безразмерных преобразованных переменных «функция тока – завихренность скорости» на основе приближений Буссинеска и диатермичности рабочей среды, была реализована численно методом конечных разностей. Уравнения дисперсии завихренности и энергии решались на основе локально-одномерной схемы А. А. Самарского. Диффузионные слагаемые аппроксимировались центральными разностями, конвективные — с использованием монотонной аппроксимации А. А. Самарского. Разностные уравнения решались методом прогонки. Разностное уравнение Пуассона для функции тока решалось отдельно с применением метода последовательной верхней релаксации. Оптимальное значение параметра релаксации подбиралось на основе вычислительных экспериментов. Анализ радиационного теплообмена проведен с использованием метода сальдо в варианте Поляка. Разработанный вычислительный код был протестирован на множестве сеток, а также верифицирован путем сопоставления полученных результатов при решении модельной задачи с экспериментальными и численными данными других авторов.
Численные исследования нестационарных режимов естественной конвекции и поверхностного теплового излучения в замкнутой вращающейся полости проведены при следующих значениях безразмерных параметров: Ra = 103–106, Ta = 0–105, Pr = 0.7, ε = 0–0.9. Все распределения были получены для двадцатого полного оборота полости, когда наблюдается установление периодической картины течения и теплопереноса. В результате анализа установлено, что при малой угловой скорости вращения полости возможна интенсификация течения, а дальнейший рост скорости вращения приводит к ослаблению конвективного течения. Радиационное число Нуссельта незначительно изменяется при варьировании числа Тейлора.
Ключевые слова: естественная конвекция, тепловое поверхностное излучение, диатермичная среда, вращающаяся полость, метод конечных разностей.
Simulation of convective-radiative heat transfer in a differentially heated rotating cavity
Computer Research and Modeling, 2018, v. 10, no. 2, pp. 195-207Просмотров за год: 20.Mathematical simulation of unsteady natural convection and thermal surface radiation within a rotating square enclosure was performed. The considered domain of interest had two isothermal opposite walls subjected to constant low and high temperatures, while other walls are adiabatic. The walls were diffuse and gray. The considered cavity rotated with constant angular velocity relative to the axis that was perpendicular to the cavity and crossed the cavity in the center. Mathematical model, formulated in dimensionless transformed variables “stream function – vorticity” using the Boussinesq approximation and diathermic approach for the medium, was performed numerically using the finite difference method. The vorticity dispersion equation and energy equation were solved using locally one-dimensional Samarskii scheme. The diffusive terms were approximated by central differences, while the convective terms were approximated using monotonic Samarskii scheme. The difference equations were solved by the Thomas algorithm. The approximated Poisson equation for the stream function was solved by successive over-relaxation method. Optimal value of the relaxation parameter was found on the basis of computational experiments. Radiative heat transfer was analyzed using the net-radiation method in Poljak approach. The developed computational code was tested using the grid independence analysis and experimental and numerical results for the model problem.
Numerical analysis of unsteady natural convection and thermal surface radiation within the rotating enclosure was performed for the following parameters: Ra = 103–106, Ta = 0–105, Pr = 0.7, ε = 0–0.9. All distributions were obtained for the twentieth complete revolution when one can find the periodic behavior of flow and heat transfer. As a result we revealed that at low angular velocity the convective flow can intensify but the following growth of angular velocity leads to suppression of the convective flow. The radiative Nusselt number changes weakly with the Taylor number.
-
Гипотеза об оптимальных оценках скорости сходимости численных методов выпуклой оптимизации высоких порядков
Компьютерные исследования и моделирование, 2018, т. 10, № 3, с. 305-314В данной работе приводятся нижние оценки скорости сходимости для класса численных методов выпуклой оптимизации первого порядка и выше, т. е. использующих градиент и старшие производные. Обсуждаются вопросы достижимости данных оценок. Приведенные в статье оценки замыкают известные на данный момент результаты в этой области. Отметим, что замыкание осуществляется без должного обоснования, поэтому в той общности, в которой данные оценки приведены в статье, их стоит понимать как гипотезу. Опишембо лее точно основной результат работы. Пожалуй, наиболее известнымм етодом второго порядка является метод Ньютона, использующий информацию о градиенте и матрице Гессе оптимизируемой функции. Однако даже для сильно выпуклых функций метод Ньютона сходится лишь локально. Глобальная сходимость метода Ньютона обеспечивается с помощью кубической регуляризации оптимизируемой на каждом шаге квадратичной модели функции [Nesterov, Polyak, 2006]. Сложность решения такой вспомогательной задачи сопоставима со сложностью итерации обычного метода Ньютона, т. е. эквивалентна по порядку сложности обращения матрицы Гессе оптимизируемой функции. В 2008 году Ю. Е. Нестеровымбыл предложен ускоренный вариант метода Ньютона с кубической регуляризацией [Nesterov, 2008]. В 2013 г. Monteiro – Svaiter сумели улучшить оценку глобальной сходимости ускоренного метода с кубической регуляризацией [Monteiro, Svaiter, 2013]. В 2017 году Arjevani – Shamir – Shiff показали, что оценка Monteiro – Svaiter оптимальна (не может быть улучшена более чем на логарифми- ческий множитель на классе методов 2-го порядка) [Arjevani et al., 2017]. Также удалось получить вид нижних оценок для методов порядка $p ≥ 2$ для задач выпуклой оптимизации. Отметим, что при этом для сильно выпуклых функций нижние оценки были получены только для методов первого и второго порядка. В 2018 году Ю. Е. Нестеров для выпуклых задач оптимизации предложил методы 3-го порядка, которые имеют сложность итерации сопоставимую со сложностью итерации метода Ньютона и сходятся почти по установленным нижним оценкам [Nesterov, 2018]. Таким образом, было показано, что методы высокого порядка вполне могут быть практичными. В данной работе приводятся нижние оценки для методов высокого порядка $p ≥ 3$ для сильно выпуклых задач безусловной оптимизации. Работа также может рассматриваться как небольшой обзор современного состояния развития численных методов выпуклой оптимизации высокого порядка.
Ключевые слова: метод Ньютона, матрица Гессе, нижние оценки, чебышёвские методы, сверхлинейная сходимость.
A hypothesis about the rate of global convergence for optimal methods (Newton’s type) in smooth convex optimization
Computer Research and Modeling, 2018, v. 10, no. 3, pp. 305-314Просмотров за год: 21. Цитирований: 1 (РИНЦ).In this paper we discuss lower bounds for convergence of convex optimization methods of high order and attainability of this bounds. We formulate a hypothesis that covers all the cases. It is noticeable that we provide this statement without a proof. Newton method is the most famous method that uses gradient and Hessian of optimized function. However, it converges locally even for strongly convex functions. Global convergence can be achieved with cubic regularization of Newton method [Nesterov, Polyak, 2006], whose iteration cost is comparable with iteration cost of Newton method and is equivalent to inversion of Hessian of optimized function. Yu.Nesterov proposed accelerated variant of Newton method with cubic regularization in 2008 [Nesterov, 2008]. R.Monteiro and B. Svaiter managed to improve global convergence of cubic regularized method in 2013 [Monteiro, Svaiter, 2013]. Y.Arjevani, O. Shamir and R. Shiff showed that convergence bound of Monteiro and Svaiter is optimal (cannot be improved by more than logarithmic factor with any second order method) in 2017 [Arjevani et al., 2017]. They also managed to find bounds for convex optimization methods of p-th order for $p ≥ 2$. However, they got bounds only for first and second order methods for strongly convex functions. In 2018 Yu.Nesterov proposed third order convex optimization methods with rate of convergence that is close to this lower bounds and with similar to Newton method cost of iteration [Nesterov, 2018]. Consequently, it was showed that high order methods can be practical. In this paper we formulate lower bounds for p-th order methods for $p ≥ 3$ for strongly convex unconstrained optimization problems. This paper can be viewed as a little survey of state of the art of high order optimization methods.
-
Метод зеркального спуска для условных задач оптимизации с большими значениями норм субградиентов функциональных ограничений
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 301-317В работе рассмотрена задача минимизации выпуклого и, вообще говоря, негладкого функционала $f$ при наличии липшицевого неположительного выпуклого негладкого функционального ограничения $g$. При этом обоснованы оценки скорости сходимости методов адаптивного зеркального спуска также и для случая квазивыпуклого целевого функционала в случае выпуклого функционального ограничения. Предложен также метод и для задачи минимизации квазивыпуклого целевого функционала с квазивыпуклым неположительным функционалом ограничения. В работе предложен специальный подход к выбору шагов и количества итераций в алгоритме зеркального спуска для рассматриваемого класса задач. В случае когда значения норм (суб)градиентов функциональных ограничений достаточно велики, предложенный подход к выбору шагов и остановке метода может ускорить работу метода по сравнению с его аналогами. В работе приведены численные эксперименты, демонстрирующие преимущества использования таких методов. Также показано, что методы применимы к целевым функционалам различных уровней гладкости. В частности, рассмотрен класс гёльдеровых целевых функционалов. На базе техники рестартов для рассмотренного варианта метода зеркального спуска был предложен оптимальный метод решения задач оптимизации с сильно выпуклыми целевыми функционалами. Получены оценки скорости сходимости рассмотренных алгоритмов для выделенных классов оптимизационных задач. Доказанные оценки демонстрируют оптимальность рассматриваемых методов с точки зрения теории нижних оракульных оценок.
Ключевые слова: негладкая условная оптимизация, квазивыпуклый функционал, адаптивный зеркальный спуск, уровень гладкости, гёльдеров целевой функционал, оптимальный метод.
Mirror descent for constrained optimization problems with large subgradient values of functional constraints
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 301-317The paper is devoted to the problem of minimization of the non-smooth functional $f$ with a non-positive non-smooth Lipschitz-continuous functional constraint. We consider the formulation of the problem in the case of quasi-convex functionals. We propose new strategies of step-sizes and adaptive stopping rules in Mirror Descent for the considered class of problems. It is shown that the methods are applicable to the objective functionals of various levels of smoothness. Applying a special restart technique to the considered version of Mirror Descent there was proposed an optimal method for optimization problems with strongly convex objective functionals. Estimates of the rate of convergence for the considered methods are obtained depending on the level of smoothness of the objective functional. These estimates indicate the optimality of the considered methods from the point of view of the theory of lower oracle bounds. In particular, the optimality of our approach for Höldercontinuous quasi-convex (sub)differentiable objective functionals is proved. In addition, the case of a quasiconvex objective functional and functional constraint was considered. In this paper, we consider the problem of minimizing a non-smooth functional $f$ in the presence of a Lipschitz-continuous non-positive non-smooth functional constraint $g$, and the problem statement in the cases of quasi-convex and strongly (quasi-)convex functionals is considered separately. The paper presents numerical experiments demonstrating the advantages of using the considered methods.
-
Калибровка параметров модели расчета матрицы корреспонденций для г. Москвы
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 961-978В данной работе рассматривается задача восстановления матрицы корреспонденций для наблюдений реальных корреспонденций в г. Москве. Следуя общепринятому подходу [Гасников и др., 2013], транспортная сеть рассматривается как ориентированный граф, дуги которого соответствуют участкам дороги, а вершины графа — районы, из которых выезжают / в которые въезжают участники движения. Число жителей города считается постоянным. Задача восстановления матрицы корреспонденций состоит в расчете всех корреспонденций израйона $i$ в район $j$.
Для восстановления матрицы предлагается использовать один из наиболее популярных в урбанистике способов расчета матрицы корреспонценций — энтропийная модель. В работе, в соответствии с работой [Вильсон, 1978], приводится описание эволюционного обоснования энтропийной модели, описывается основная идея перехода к решению задачи энтропийно-линейного программирования (ЭЛП) при расчете матрицы корреспонденций. Для решения полученной задачи ЭЛП предлагается перейти к двойственной задаче и решать задачу относительно двойственных переменных. В работе описывается несколько численных методов оптимизации для решения данной задачи: алгоритм Синхорна и ускоренный алгоритм Синхорна. Далее приводятся численные эксперименты для следующих вариантов функций затрат: линейная функция затрат и сумма степенной и логарифмической функции затрат. В данных функциях затраты представляют из себя некоторую комбинацию среднего времени в пути и расстояния между районами, которая зависит от параметров. Для каждого набора параметров функции затрат рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Мы предполагаем, что шум в восстановленной матрице корреспонденций является гауссовским, в результате в качестве метрики качества выступает среднеквадратичное отклонение. Данная задача представляет из себя задачу невыпуклой оптимизации. В статье приводится обзор безградиенных методов оптимизации для решения невыпуклых задач. Так как число параметров функции затрат небольшое, для определения оптимальных параметров функции затрат было выбрано использовать метод перебора по сетке значений. Таким образом, для каждого набора параметров рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Далее по минимальному значению невязки для каждой функции затрат определяется, для какой функции затрат и при каких значениях параметров восстановленная матрица наилучшим образом описывает реальные корреспонденции.
Ключевые слова: модель расчета матрицы корреспонденций, энтропийно-линейное программирование, метод Синхорна, метод ускоренного Синхорна.
Calibration of model parameters for calculating correspondence matrix for Moscow
Computer Research and Modeling, 2020, v. 12, no. 5, pp. 961-978In this paper, we consider the problem of restoring the correspondence matrix based on the observations of real correspondences in Moscow. Following the conventional approach [Gasnikov et al., 2013], the transport network is considered as a directed graph whose edges correspond to road sections and the graph vertices correspond to areas that the traffic participants leave or enter. The number of city residents is considered constant. The problem of restoring the correspondence matrix is to calculate all the correspondence from the $i$ area to the $j$ area.
To restore the matrix, we propose to use one of the most popular methods of calculating the correspondence matrix in urban studies — the entropy model. In our work, which is based on the work [Wilson, 1978], we describe the evolutionary justification of the entropy model and the main idea of the transition to solving the problem of entropy-linear programming (ELP) in calculating the correspondence matrix. To solve the ELP problem, it is proposed to pass to the dual problem. In this paper, we describe several numerical optimization methods for solving this problem: the Sinkhorn method and the Accelerated Sinkhorn method. We provide numerical experiments for the following variants of cost functions: a linear cost function and a superposition of the power and logarithmic cost functions. In these functions, the cost is a combination of average time and distance between areas, which depends on the parameters. The correspondence matrix is calculated for multiple sets of parameters and then we calculate the quality of the restored matrix relative to the known correspondence matrix.
We assume that the noise in the restored correspondence matrix is Gaussian, as a result, we use the standard deviation as a quality metric. The article provides an overview of gradient-free optimization methods for solving non-convex problems. Since the number of parameters of the cost function is small, we use the grid search method to find the optimal parameters of the cost function. Thus, the correspondence matrix calculated for each set of parameters and then the quality of the restored matrix is evaluated relative to the known correspondence matrix. Further, according to the minimum residual value for each cost function, we determine for which cost function and at what parameter values the restored matrix best describes real correspondence.
-
Метод эллипсоидов для задач выпуклой стохастической оптимизации малой размерности
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1137-1147В статье рассматривается задача минимизации математического ожидания выпуклой функции. Задачи такого вида повсеместны в машинном обучении, а также часто возникают в ряде других приложений. На практике для их решения обычно используются процедуры типа стохастического градиентного спуска (SGD). В нашей работе предлагается решать такие задачи с использованием метода эллипсоидов с мини-батчингом. Алгоритм имеет линейную скорость сходимости и может оказаться эффективнее SGD в ряде задач. Это подтверждается в наших экспериментах, исходный код которых находится в открытом доступе. Для получения линейной скорости сходимости метода не требуется ни гладкость, ни сильная выпуклость целевой функции. Таким образом, сложность алгоритма не зависит от обусловленности задачи. В работе доказывается, что метод эллипсоидов с наперед заданной вероятностью находит решение с желаемой точностью при использовании мини-батчей, размер которых пропорционален точности в степени -2. Это позволяет выполнять алгоритм параллельно на большом числе процессоров, тогда как возможности для батчараллелизации процедур типа стохастического градиентного спуска весьма ограничены. Несмотря на быструю сходимость, общее количество вычислений градиента для метода эллипсоидов может получиться больше, чем для SGD, который неплохо сходится и при маленьком размере батча. Количество итераций метода эллипсоидов квадратично зависит от размерности задачи, поэтому метод подойдет для относительно небольших размерностей.
Ellipsoid method for convex stochastic optimization in small dimension
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1137-1147The article considers minimization of the expectation of convex function. Problems of this type often arise in machine learning and a variety of other applications. In practice, stochastic gradient descent (SGD) and similar procedures are usually used to solve such problems. We propose to use the ellipsoid method with mini-batching, which converges linearly and can be more efficient than SGD for a class of problems. This is verified by our experiments, which are publicly available. The algorithm does not require neither smoothness nor strong convexity of the objective to achieve linear convergence. Thus, its complexity does not depend on the conditional number of the problem. We prove that the method arrives at an approximate solution with given probability when using mini-batches of size proportional to the desired accuracy to the power −2. This enables efficient parallel execution of the algorithm, whereas possibilities for batch parallelization of SGD are rather limited. Despite fast convergence, ellipsoid method can result in a greater total number of calls to oracle than SGD, which works decently with small batches. Complexity is quadratic in dimension of the problem, hence the method is suitable for relatively small dimensionalities.
-
Линейно сходящиеся безградиентные методы для минимизации параболической аппроксимации
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 239-255Нахождение глобального минимума невыпуклых функций — одна из ключевых и самых сложных проблем современной оптимизации. В этой работе мы рассматриваем отдельные классы невыпуклых задач, которые имеют четкий и выраженный глобальный минимум.
В первой части статьи мы рассматриваем два класса «хороших» невыпуклых функций, которые могут быть ограничены снизу и сверху параболической функцией. Такой класс задач не исследован широко в литературе, хотя является довольно интересным с прикладной точки зрения. Более того, для таких задач методы первого и более высоких порядков могут быть абсолютно неэффективны при поиске глобального минимума. Это связано с тем, что функция может сильно осциллировать или может быть сильно зашумлена. Поэтому наши новые методы используют информацию только нулевого порядка и основаны на поиске по сетке. Размер и мелкость этой сетки, а значит, и гарантии скорости сходимости и оракульной сложности зависят от «хорошести» задачи. В частности, мы показываем, если функция зажата довольно близкими параболическими функциями, то сложность не зависит от размерности задачи. Мы показываем, что наши новые методы сходятся с линейной скоростью сходимости $\log(1/\varepsilon)$ к глобальному минимуму на кубе.
Во второй части статьи мы рассматриваем задачу невыпуклой оптимизации с другого ракурса. Мы предполагаем, что целевая минимизируемая функция есть сумма выпуклой квадратичной задачи и невыпуклой «шумовой» функции, пропорциональной по модулю расстоянию до глобального решения. Рассмотрение функций с такими предположениями о шуме для методов нулевого порядка является новым в литературе. Для такой задачи мы используем классический безградиентный подход с аппроксимацией градиента через конечную разность. Мы показываем, как можно свести анализ сходимости для нашей задачи к стандартному анализу для задач выпуклой оптимизации. В частности, и для таких задач мы добиваемся линейной скорости сходимости.
Экспериментальные результаты подтверждают работоспособность и практическую применимость всех полученных методов.
Linearly convergent gradient-free methods for minimization of parabolic approximation
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 239-255Finding the global minimum of a nonconvex function is one of the key and most difficult problems of the modern optimization. In this paper we consider special classes of nonconvex problems which have a clear and distinct global minimum.
In the first part of the paper we consider two classes of «good» nonconvex functions, which can be bounded below and above by a parabolic function. This class of problems has not been widely studied in the literature, although it is rather interesting from an applied point of view. Moreover, for such problems first-order and higher-order methods may be completely ineffective in finding a global minimum. This is due to the fact that the function may oscillate heavily or may be very noisy. Therefore, our new methods use only zero-order information and are based on grid search. The size and fineness of this grid, and hence the guarantee of convergence speed and oracle complexity, depend on the «goodness» of the problem. In particular, we show that if the function is bounded by fairly close parabolic functions, then the complexity is independent of the dimension of the problem. We show that our new methods converge with a linear convergence rate $\log(1/\varepsilon)$ to a global minimum on the cube.
In the second part of the paper, we consider the nonconvex optimization problem from a different angle. We assume that the target minimizing function is the sum of the convex quadratic problem and a nonconvex «noise» function proportional to the distance to the global solution. Considering functions with such noise assumptions for zero-order methods is new in the literature. For such a problem, we use the classical gradient-free approach with gradient approximation through finite differences. We show how the convergence analysis for our problems can be reduced to the standard analysis for convex optimization problems. In particular, we achieve a linear convergence rate for such problems as well.
Experimental results confirm the efficiency and practical applicability of all the obtained methods.
-
Влияние конечности мантиссы на точность безградиентных методов оптимизации
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 259-280Безградиентные методы оптимизации, или методы нулевого порядка, широко применяются в обучении нейронных сетей, обучении с подкреплением, а также в промышленных задачах, где доступны лишь значения функции в точке (работа с неаналитическими функциями). В частности, метод обратного распространения ошибки в PyTorch работает именно по этому принципу. Существует общеизвестный факт, что при компьютерных вычислениях используется эвристика чисел с плавающей точкой, и из-за этого возникает проблема конечности мантиссы.
В этой работе мы, во-первых, сделали обзор наиболее популярных методов аппроксимации градиента: конечная прямая/центральная разность (FFD/FCD), покомпонентная прямая/центральная разность (FWC/CWC), прямая/центральная рандомизация на $l_2$ сфере (FSSG2/CFFG2); во-вторых, мы описали текущие теоретические представления шума, вносимого неточностью вычисления функции в точке: враждебный шум, случайный шум; в-третьих, мы провели серию экспериментов на часто встречающихся классах задач, таких как квадратичная задача, логистическая регрессия, SVM, чтобы попытаться определить, соответствует ли реальная природа машинного шума существующей теории. Оказалось, что в реальности (по крайней мере на тех классах задач, которые были рассмотрены в данной работе) машинный шум оказался чем-то средним между враждебным шумом и случайным, в связи с чем текущая теория о влиянии конечности мантиссы на поиск оптимума в задачах безградиентной оптимизации требует некоторой корректировки.
Ключевые слова: конечность мантиссы, безградиентные методы оптимизации, аппроксима- ция градиента, градиентный спуск, квадратичная задача, логистическая регрессия.
Influence of the mantissa finiteness on the accuracy of gradient-free optimization methods
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 259-280Gradient-free optimization methods or zeroth-order methods are widely used in training neural networks, reinforcement learning, as well as in industrial tasks where only the values of a function at a point are available (working with non-analytical functions). In particular, the method of error back propagation in PyTorch works exactly on this principle. There is a well-known fact that computer calculations use heuristics of floating-point numbers, and because of this, the problem of finiteness of the mantissa arises.
In this paper, firstly, we reviewed the most popular methods of gradient approximation: Finite forward/central difference (FFD/FCD), Forward/Central wise component (FWC/CWC), Forward/Central randomization on $l_2$ sphere (FSSG2/CFFG2); secondly, we described current theoretical representations of the noise introduced by the inaccuracy of calculating the function at a point: adversarial noise, random noise; thirdly, we conducted a series of experiments on frequently encountered classes of problems, such as quadratic problem, logistic regression, SVM, to try to determine whether the real nature of machine noise corresponds to the existing theory. It turned out that in reality (at least for those classes of problems that were considered in this paper), machine noise turned out to be something between adversarial noise and random, and therefore the current theory about the influence of the mantissa limb on the search for the optimum in gradient-free optimization problems requires some adjustment.
-
Применение метода нулевого поля для решения двумерного нелинейного уравнения теплопроводности
Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1449-1467В работе рассмотрена краевая задача о движении тепловой волны для вырождающегося уравнения второго порядка параболического типа со степенной нелинейностью. Краевое условие задает уравнение движения на плоскости нулевого фронта тепловой волны, имеющего форму окружности. Предложен новый численно-аналитический алгоритм, в соответствии с которым решение строится по шагам по времени при разностной схеме дискретизации времени. На каждом шаге рассматривается краевая задача для уравнения Пуассона, к которому сводится исходное уравнение. Фактически она является обратной задачей Коши, в которой исходная граница области решения свободна от граничных условий, а на текущей границе (фронте волны) заданы два условия (Неймана и Дирихле). Решение этой задачи ищется в виде суммы частного решения уравнения Пуассона и решения соответствующего уравнения Лапласа, удовлетворяющего граничным условиям. Поскольку неоднородность зависит от искомой функции и ее производных, решение строится итерационно. Частное решение ищется методом коллокаций с помощью разложения неоднородности по радиальным базисным функциям. Обратная задача Коши для уравнения Лапласа решается методом нулевого поля применительно к круговым областям с круговыми отверстиями. Для таких задач этот метод применяется впервые. Вычислительный алгоритм оптимизирован за счет распараллеливания вычислений. Распараллеливание вычислений позволило эффективно реализовать алгоритм на высокопроизводительных вычислительных системах. На базе алгоритма была создана компьютерная программа. В качестве средства распараллеливания был выбран стандарт параллельного программирования OpenMP для языка программирования C++ как наиболее подходящий для вычислительных программ с параллельными циклами. Эффективность алгоритма и работоспособность программы были проверены сравнением результатов расчетов с известным точным решением, а также с численным решением, полученным авторами ранее с помощью метода граничных элементов. Проведенный вычислительный эксперимент показал хорошую сходимость итерационных процессов и более высокую точность нового алгоритма по сравнению с разработанным ранее. Анализ решений позволил определить наиболее подходящую систему радиальных базисных функций.
Ключевые слова: нелинейное уравнение параболического типа, уравнение теплопроводности, метод нулевого поля, метод коллокаций, радиальные базисные функции, метод граничных элементов.
Solution to a two-dimensional nonlinear heat equation using null field method
Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1449-1467The paper deals with a heat wave motion problem for a degenerate second-order nonlinear parabolic equation with power nonlinearity. The considered boundary condition specifies in a plane the motion equation of the circular zero front of the heat wave. A new numerical-analytical algorithm for solving the problem is proposed. A solution is constructed stepby- step in time using difference time discretization. At each time step, a boundary value problem for the Poisson equation corresponding to the original equation at a fixed time is considered. This problem is, in fact, an inverse Cauchy problem in the domain whose initial boundary is free of boundary conditions and two boundary conditions (Neumann and Dirichlet) are specified on a current boundary (heat wave). A solution of this problem is constructed as the sum of a particular solution to the nonhomogeneous Poisson equation and a solution to the corresponding Laplace equation satisfying the boundary conditions. Since the inhomogeneity depends on the desired function and its derivatives, an iterative solution procedure is used. The particular solution is sought by the collocation method using inhomogeneity expansion in radial basis functions. The inverse Cauchy problem for the Laplace equation is solved by the null field method as applied to a circular domain with a circular hole. This method is used for the first time to solve such problem. The calculation algorithm is optimized by parallelizing the computations. The parallelization of the computations allows us to realize effectively the algorithm on high performance computing servers. The algorithm is implemented as a program, which is parallelized by using the OpenMP standard for the C++ language, suitable for calculations with parallel cycles. The effectiveness of the algorithm and the robustness of the program are tested by the comparison of the calculation results with the known exact solution as well as with the numerical solution obtained earlier by the authors with the use of the boundary element method. The implemented computational experiment shows good convergence of the iteration processes and higher calculation accuracy of the proposed new algorithm than of the previously developed one. The solution analysis allows us to select the radial basis functions which are most suitable for the proposed algorithm.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"