Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
О разложении матриц при помощи метода стохастического градиентного спуска в приложении к задаче направляемой классификации микрочипов
Компьютерные исследования и моделирование, 2013, т. 5, № 2, с. 131-140Многомерные данные, при использовании значительно большего количества признаков относительно меньшего числа наблюдений, порождают хорошо известную проблему переопределённой задачи. В связи с этим, представляется целесообразным описание данных в терминах меньшего числа мета-признаков, которые вычисляются при помощи так называемых матричных факторизаций. Такие факторизации способствуют уменьшению случайного шума при сохранении наиболее существенной информации. Три новых и взаимосвязанных метода предложены в этой статье: 1) факторизационный механизм градиентного спуска с двумя (согласно размерности микрочипа) гибкими и адаптируемыми параметрами обучения, включая явные формулы их автоматического пересчета, 2) непараметрический критерий для отбора количества факторов, и 3) неотрицательная модификация градиентной факторизации, которая не требует дополнительных вычислительных затрат в сравнении с базовой моделью. Мы иллюстрируем эффективность предложенных методов в приложении к задаче направляемой классификации данных в области биоинформатики.
Ключевые слова: матричная факторизация, ненаправляемое обучение, количество факторов, непараметрический критерий, неотрицательность, оставить одного извне, классификация.
On the stochastic gradient descent matrix factorization in application to the supervised classification of microarrays
Computer Research and Modeling, 2013, v. 5, no. 2, pp. 131-140Цитирований: 4 (РИНЦ).Microarray datasets are highly dimensional, with a small number of collected samples in comparison to thousands of features. This poses a significant challenge that affects the interpretation, applicability and validation of the analytical results. Matrix factorizations have proven to be a useful method for describing data in terms of a small number of meta-features, which reduces noise, while still capturing the essential features of the data. Three novel and mutually relevant methods are presented in this paper: 1) gradient-based matrix factorization with two adaptive learning rates (in accordance with the number of factor matrices) and their automatic updates; 2) nonparametric criterion for the selection of the number of factors; and 3) nonnegative version of the gradient-based matrix factorization which doesn't require any extra computational costs in difference to the existing methods. We demonstrate effectiveness of the proposed methods to the supervised classification of gene expression data.
-
Прямо-двойственный быстрый градиентный метод с моделью
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 263-274В данной работе рассматривается возможность применения концепции $(\delta, L)$-модели функции для оптимизационных задач, в которых посредством решения прямой задачи имеется необходимость восстанавливать решение двойственной задачи. Концепция $(\delta, L)$-модели основана на концепции $(\delta, L)$-оракула, предложенной Деволдером–Глинером–Нестеровым, при этом данные авторы предложили фукнционалы в оптимизационных задачах аппроксимировать сверху выпуклой параболой с некоторым аддитивным шумом $\delta$; таким образом, им удалось получить квадратичные верхние оценки с шумом даже для негладких функционалов. Концепция $(\delta, L)$-модели продолжает эту идею за счет того, что аппроксимация сверху делается не выпуклой параболой, а некоторым более сложным выпуклым функционалом. Возможность восстанавливать решение двойственной задачи хорошо зарекомендовала себя, так как во многих случаях в прямой задаче можно значительно быстрее находить решение, чем в двойственной. Отметим, что прямо-двойственные методы хорошо изучены, но при этом, как правило, каждый метод предлагается под конкретный класс задач. Наша же цель — предложить метод, который бы включал в себя сразу различные методы. Это реализуется за счет использования концепции $(\delta, L)$-модели и адаптивной структуры наших методов. Таким образом, нам удалось получить прямо-двойственный адаптивный градиентный метод и быстрый градиентный метод с $(\delta, L)$-моделью и доказать оценки сходимости для них, причем для некоторых классов задач данные оценки являются оптимальными. Основная идея заключается в том, что нахождение двойственных решений происходит относительно оптимизационной задачи, которая аппроксимируют прямую с помощью концепции $(\delta, L)$-модели и имеет более простую структуру, поэтому находить двойственное решение у нее проще. Стоит отметить, что это происходит на каждом шаге работы оптимизационного метода; таким образом, реализуется принцип «разделяй и властвуй».
Primal-dual fast gradient method with a model
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 263-274In this work we consider a possibility to use the conception of $(\delta, L)$-model of a function for optimization tasks, whereby solving a primal problem there is a necessity to recover a solution of a dual problem. The conception of $(\delta, L)$-model is based on the conception of $(\delta, L)$-oracle which was proposed by Devolder–Glineur–Nesterov, herewith the authors proposed approximate a function with an upper bound using a convex quadratic function with some additive noise $\delta$. They managed to get convex quadratic upper bounds with noise even for nonsmooth functions. The conception of $(\delta, L)$-model continues this idea by using instead of a convex quadratic function a more complex convex function in an upper bound. Possibility to recover the solution of a dual problem gives great benefits in different problems, for instance, in some cases, it is faster to find a solution in a primal problem than in a dual problem. Note that primal-dual methods are well studied, but usually each class of optimization problems has its own primal-dual method. Our goal is to develop a method which can find solutions in different classes of optimization problems. This is realized through the use of the conception of $(\delta, L)$-model and adaptive structure of our methods. Thereby, we developed primal-dual adaptive gradient method and fast gradient method with $(\delta, L)$-model and proved convergence rates of the methods, moreover, for some classes of optimization problems the rates are optimal. The main idea is the following: we find a dual solution to an approximation of a primal problem using the conception of $(\delta, L)$-model. It is much easier to find a solution to an approximated problem, however, we have to do it in each step of our method, thereby the principle of “divide and conquer” is realized.
-
Синтез структуры организованных систем как центральная проблема эволюционной кибернетики
Компьютерные исследования и моделирование, 2023, т. 15, № 5, с. 1103-1124В статье рассматриваются подходы к эволюционному моделированию синтеза организованных систем и анализируются методологические проблемы эволюционных вычислений этого направления. На основе анализа работ по эволюционной кибернетике, теории эволюции, теории систем и синергетике сделан вывод о наличии открытых проблем в задачах формализации синтеза организованных систем и моделирования их эволюции. Показано, что теоретической основой для практики эволюционного моделирования являются положения синтетической теории эволюции. Рассмотрено использование виртуальной вычислительной среды для машинного синтеза алгоритмов решения задач. На основе полученных в процессе моделирования результатов сделан вывод о наличии ряда условий, принципиально ограничивающих применимость методов генетического программирования в задачах синтеза функциональных структур. К основным ограничениям относятся необходимость для фитнес-функции отслеживать поэтапное приближение к решению задачи и неприменимость данного подхода к задачам синтеза иерархически организованных систем. Отмечено, что результаты, полученные в практике эволюционного моделирования в целом за все время его существования, подтверждают вывод о принципиальной ограниченности возможностей генетического программирования при решении задач синтеза структуры организованных систем. В качестве источников принципиальных трудностей для машинного синтеза системных структур указаны отсутствие направлений для градиентного спуска при структурном синтезе и отсутствие закономерности случайного появления новых организованных структур. Сделан вывод об актуальности рассматриваемых проблем для теории биологической эволюции. Обосновано положение о биологической специфике практически возможных путей синтеза структуры организованных систем. В качестве теоретической интерпретации обсуждаемой проблемы предложено рассматривать системно-эволюционную концепцию П.К. Анохина. Процесс синтеза функциональных структур рассматривается в этом контексте как адаптивная реакция организмов на внешние условия, основанная на их способности к интегративному синтезу памяти, потребностей и информации о текущих условиях. Приведены результаты актуальных исследований, свидетельствующие в пользу данной интерпретации. Отмечено, что физические основы биологической интегративности могут быть связаны с явлениями нелокальности и несепарабельности, характерными для квантовых систем. Отмечена связь рассматриваемой в данной работе проблематики с проблемой создания сильного искусственного интеллекта.
Ключевые слова: эволюционное моделирование, кибернетика, теория систем, теория эволюции, генетические алгоритмы, искусственный интеллект.
Synthesis of the structure of organised systems as central problem of evolutionary cybernetics
Computer Research and Modeling, 2023, v. 15, no. 5, pp. 1103-1124The article provides approaches to evolutionary modelling of synthesis of organised systems and analyses methodological problems of evolutionary computations of this kind. Based on the analysis of works on evolutionary cybernetics, evolutionary theory, systems theory and synergetics, we conclude that there are open problems in formalising the synthesis of organised systems and modelling their evolution. The article emphasises that the theoretical basis for the practice of evolutionary modelling is the principles of the modern synthetic theory of evolution. Our software project uses a virtual computing environment for machine synthesis of problem solving algorithms. In the process of modelling, we obtained the results on the basis of which we conclude that there are a number of conditions that fundamentally limit the applicability of genetic programming methods in the tasks of synthesis of functional structures. The main limitations are the need for the fitness function to track the step-by-step approach to the solution of the problem and the inapplicability of this approach to the problems of synthesis of hierarchically organised systems. We note that the results obtained in the practice of evolutionary modelling in general for the whole time of its existence, confirm the conclusion the possibilities of genetic programming are fundamentally limited in solving problems of synthesizing the structure of organized systems. As sources of fundamental difficulties for machine synthesis of system structures the article points out the absence of directions for gradient descent in structural synthesis and the absence of regularity of random appearance of new organised structures. The considered problems are relevant for the theory of biological evolution. The article substantiates the statement about the biological specificity of practically possible ways of synthesis of the structure of organised systems. As a theoretical interpretation of the discussed problem, we propose to consider the system-evolutionary concept of P.K.Anokhin. The process of synthesis of functional structures in this context is an adaptive response of organisms to external conditions based on their ability to integrative synthesis of memory, needs and information about current conditions. The results of actual studies are in favour of this interpretation. We note that the physical basis of biological integrativity may be related to the phenomena of non-locality and non-separability characteristic of quantum systems. The problems considered in this paper are closely related to the problem of creating strong artificial intelligence.
-
Общий подход к построению градиентных методов параметрической идентификации на основе модифицированной взвешенной ортогонализации Грама – Шмидта и алгоритмов дискретной фильтрации информационного типа
Компьютерные исследования и моделирование, 2025, т. 17, № 5, с. 761-782В работе рассматривается задача параметрической идентификации дискретных линейных стохастических систем, представленных уравнениями в пространстве состояний, с аддитивными и мультипликативными шумами. Предполагается, что уравнения состояния и измерения дискретной линейной стохастической системы зависят от неизвестного параметра, подлежащего идентификации.
Представлен новый подход к построению градиентных методов параметрической идентификации в классе дискретных линейных стохастических систем с аддитивными и мультиплика- тивными шумами, основанный на применении модифицированной взвешенной ортогонализации Грама – Шмидта (MWGS) и алгоритмов дискретной фильтрации информационного типа.
Основными теоретическими результатами данной работы являются: 1) новый критерий идентификации в терминах расширенного информационного LD-фильтра; 2) новый алгоритм вычисления значений производных по параметру неопределенности дискретной линейной стохастической системы в расширенном информационном LD-фильтре на основе прямой процедуры модифицированной взвешенной ортогонализации Грама – Шмидта; 3) новый метод вычисления градиента критерия идентификации на основе предложенного дифференцированного расширенного информационного LD-фильтра.
Преимуществом предложенного подхода является применение численно устойчивой к ошибкам машинного округления MWGS-ортогонализации, лежащей в основе разработанных методов и алгоритмов. Информационный LD-фильтр сохраняет симметричность и положительную определенность информационных матриц. Разработанные алгоритмы имеют блочно-матричную структуру, удобную для компьютерной реализации.
Все разработанные алгоритмы реализованы на языке MATLAB. Проведены серии численных экспериментов, результаты которых демонстрируют работоспособность предложенного подхода на примере решения задачи идентификации параметров математической модели сложной механической системы.
Полученные результаты могут быть использованы для построения методов параметрической идентификации математических моделей, представленных в пространстве состояний дискретными линейными стохастическими системами с аддитивными и мультипликативными шумами.
Ключевые слова: параметрическая идентификация, градиентный метод, MWGS-ортогонализация, алгоритм информационной фильтрации, линейная дискретная стохастическая система, параметрическая неопределенность.
A general approach to constructing gradient methods for parameter identification based on modified weighted Gram – Schmidt orthogonalization and information-type discrete filtering algorithms
Computer Research and Modeling, 2025, v. 17, no. 5, pp. 761-782The paper considers the problem of parameter identification of discrete-time linear stochastic systems in the state space with additive and multiplicative noise. It is assumed that the state and measurements equations of a discrete-time linear stochastic system depend on an unknown parameter to be identified.
A new approach to the construction of gradient parameter identification methods in the class of discrete-time linear stochastic systems with additive and multiplicative noise is presented, based on the application of modified weighted Gram – Schmidt orthogonalization (MWGS) and the discrete-time information-type filtering algorithms.
The main theoretical results of this research include: 1) a new identification criterion in terms of an extended information filter; 2) a new algorithm for calculating derivatives with respect to an uncertainty parameter in a discrete-time linear stochastic system based on an extended information LD filter using the direct procedure of modified weighted Gram – Schmidt orthogonalization; and 3) a new method for calculating the gradient of identification criteria using a “differentiated” extended information LD filter.
The advantages of this approach are that it uses MWGS orthogonalization which is numerically stable against machine roundoff errors, and it forms the basis of all the developed methods and algorithms. The information LD-filter maintains the symmetry and positive definiteness of the information matrices. The algorithms have an array structure that is convenient for computer implementation.
All the developed algorithms were implemented in MATLAB. A series of numerical experiments were carried out. The results obtained demonstrated the operability of the proposed approach, using the example of solving the problem of parameter identification for a mathematical model of a complex mechanical system.
The results can be used to develop methods for identifying parameters in mathematical models that are represented in state space by discrete-time linear stochastic systems with additive and multiplicative noise.
-
Моделирование частотной зависимости диэлектрической проницаемости и электрической проводимости насыщенных пористых сред
Компьютерные исследования и моделирование, 2016, т. 8, № 5, с. 765-773В работе представлена численная методика определения спектральных электромагнитных характеристик (эффективных электрической проводимости и относительной диэлектрической проницаемости) насыщенных пористых сред. Их определение находит применение при интерпретации данных петрофизических исследований скважин, а также при изучении кернового материала. Особенностью настоящей работы является использование трехмерных цифровых моделей насыщенных пористых сред, построенных на основе комбинированной информации о микроструктуре среды и капиллярном равновесии двухфазной смеси типа «нефть–вода» в поровом пространстве. Данные о микроструктуре модели получаются путем использования методов рентгеновской микротомографии. Многофазное многокомпонентное распределение флюидов в поровом пространстве модели находится с помощью метода функционала плотности. Для определения непосредственно электромагнитных характеристик модели выполняется фурье-преобразование по времени уравнения Максвелла, выражающего обобщенную теорему Ампера о циркуляции. В низкочастотном приближении задача сводится к решению уравнения эллиптического типа на комплексный потенциал. Для конечно- разностной аппроксимации используется дискретизация модели на изотропной равномерной ортогональной сетке. При этом считается, что в каждой расчетной ячейке сетки содержится либо вода, либо нефть, либо по- рода со своими электрическими параметрами. Для этого выполняется процедура сегментации, в результате которой в модели отсутствуют ячейки, содержащие несколько фаз (нефть–вода). Подобная модификация модели позволяет избежать использования сложноструктурированных расчетных сеток, а также дает возможность исключить влияние способа задания свойств ячеек, заполненных смесью различных фаз, на результаты расчета. Полученная система разностных уравнений решается с использованием стабилизированного метода бисопряженных градиентов с многосеточным предобуславливателем. На основе вычисленных распределений комплексного потенциала находятся средние значения электрической проводимости и относительной диэлектрической проницаемости. Для простоты в настоящей работе рассматривался случай отсутствия спектральной зависимости проводимости и проницаемости компонентов от частоты. Результаты расчетов частотных зависимостей эффективных характеристик неоднородно насыщенных пористых сред (электрической проводимости и относительной диэлектрической проницаемости) в широком диапазоне частот и водонасыщенностей представлены на графиках и в таблице. В заключение делается вывод об эффективности предложенного подхода для задачи определения дисперсионных электромагнитных характеристик насыщенных горных пород.
Ключевые слова: численное моделирование, электромагнитные свойства, дисперсия электромагнитных характеристик, насыщенные пористые среды, электрическая проводимость, диэлектрическая проницаемость.
Numerical simulation of frequency dependence of dielectric permittivity and electrical conductivity of saturated porous media
Computer Research and Modeling, 2016, v. 8, no. 5, pp. 765-773Просмотров за год: 8.This article represents numerical simulation technique for determining effective spectral electromagnetic properties (effective electrical conductivity and relative dielectric permittivity) of saturated porous media. Information about these properties is vastly applied during the interpretation of petrophysical exploration data of boreholes and studying of rock core samples. The main feature of the present paper consists in the fact, that it involves three-dimensional saturated digital rock models, which were constructed based on the combined data considering microscopic structure of the porous media and the information about capillary equilibrium of oil-water mixture in pores. Data considering microscopic structure of the model are obtained by means of X-ray microscopic tomography. Information about distributions of saturating fluids is based on hydrodynamic simulations with density functional technique. In order to determine electromagnetic properties of the numerical model time-domain Fourier transform of Maxwell equations is considered. In low frequency approximation the problem can be reduced to solving elliptic equation for the distribution of complex electric potential. Finite difference approximation is based on discretization of the model with homogeneous isotropic orthogonal grid. This discretization implies that each computational cell contains exclusively one medium: water, oil or rock. In order to obtain suitable numerical model the distributions of saturating components is segmented. Such kind of modification enables avoiding usage of heterogeneous grids and disregards influence on the results of simulations of the additional techniques, required in order to determine properties of cells, filled with mixture of media. Corresponding system of differential equations is solved by means of biconjugate gradient stabilized method with multigrid preconditioner. Based on the results of complex electric potential computations average values of electrical conductivity and relative dielectric permittivity is calculated. For the sake of simplicity, this paper considers exclusively simulations with no spectral dependence of conductivities and permittivities of model components. The results of numerical simulations of spectral dependence of effective characteristics of heterogeneously saturated porous media (electrical conductivity and relative dielectric permittivity) in broad range of frequencies and multiple water saturations are represented in figures and table. Efficiency of the presented approach for determining spectral electrical properties of saturated rocks is discussed in conclusion.
-
Калибровка параметров модели расчета матрицы корреспонденций для г. Москвы
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 961-978В данной работе рассматривается задача восстановления матрицы корреспонденций для наблюдений реальных корреспонденций в г. Москве. Следуя общепринятому подходу [Гасников и др., 2013], транспортная сеть рассматривается как ориентированный граф, дуги которого соответствуют участкам дороги, а вершины графа — районы, из которых выезжают / в которые въезжают участники движения. Число жителей города считается постоянным. Задача восстановления матрицы корреспонденций состоит в расчете всех корреспонденций израйона $i$ в район $j$.
Для восстановления матрицы предлагается использовать один из наиболее популярных в урбанистике способов расчета матрицы корреспонценций — энтропийная модель. В работе, в соответствии с работой [Вильсон, 1978], приводится описание эволюционного обоснования энтропийной модели, описывается основная идея перехода к решению задачи энтропийно-линейного программирования (ЭЛП) при расчете матрицы корреспонденций. Для решения полученной задачи ЭЛП предлагается перейти к двойственной задаче и решать задачу относительно двойственных переменных. В работе описывается несколько численных методов оптимизации для решения данной задачи: алгоритм Синхорна и ускоренный алгоритм Синхорна. Далее приводятся численные эксперименты для следующих вариантов функций затрат: линейная функция затрат и сумма степенной и логарифмической функции затрат. В данных функциях затраты представляют из себя некоторую комбинацию среднего времени в пути и расстояния между районами, которая зависит от параметров. Для каждого набора параметров функции затрат рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Мы предполагаем, что шум в восстановленной матрице корреспонденций является гауссовским, в результате в качестве метрики качества выступает среднеквадратичное отклонение. Данная задача представляет из себя задачу невыпуклой оптимизации. В статье приводится обзор безградиенных методов оптимизации для решения невыпуклых задач. Так как число параметров функции затрат небольшое, для определения оптимальных параметров функции затрат было выбрано использовать метод перебора по сетке значений. Таким образом, для каждого набора параметров рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Далее по минимальному значению невязки для каждой функции затрат определяется, для какой функции затрат и при каких значениях параметров восстановленная матрица наилучшим образом описывает реальные корреспонденции.
Ключевые слова: модель расчета матрицы корреспонденций, энтропийно-линейное программирование, метод Синхорна, метод ускоренного Синхорна.
Calibration of model parameters for calculating correspondence matrix for Moscow
Computer Research and Modeling, 2020, v. 12, no. 5, pp. 961-978In this paper, we consider the problem of restoring the correspondence matrix based on the observations of real correspondences in Moscow. Following the conventional approach [Gasnikov et al., 2013], the transport network is considered as a directed graph whose edges correspond to road sections and the graph vertices correspond to areas that the traffic participants leave or enter. The number of city residents is considered constant. The problem of restoring the correspondence matrix is to calculate all the correspondence from the $i$ area to the $j$ area.
To restore the matrix, we propose to use one of the most popular methods of calculating the correspondence matrix in urban studies — the entropy model. In our work, which is based on the work [Wilson, 1978], we describe the evolutionary justification of the entropy model and the main idea of the transition to solving the problem of entropy-linear programming (ELP) in calculating the correspondence matrix. To solve the ELP problem, it is proposed to pass to the dual problem. In this paper, we describe several numerical optimization methods for solving this problem: the Sinkhorn method and the Accelerated Sinkhorn method. We provide numerical experiments for the following variants of cost functions: a linear cost function and a superposition of the power and logarithmic cost functions. In these functions, the cost is a combination of average time and distance between areas, which depends on the parameters. The correspondence matrix is calculated for multiple sets of parameters and then we calculate the quality of the restored matrix relative to the known correspondence matrix.
We assume that the noise in the restored correspondence matrix is Gaussian, as a result, we use the standard deviation as a quality metric. The article provides an overview of gradient-free optimization methods for solving non-convex problems. Since the number of parameters of the cost function is small, we use the grid search method to find the optimal parameters of the cost function. Thus, the correspondence matrix calculated for each set of parameters and then the quality of the restored matrix is evaluated relative to the known correspondence matrix. Further, according to the minimum residual value for each cost function, we determine for which cost function and at what parameter values the restored matrix best describes real correspondence.
-
Линейно сходящиеся безградиентные методы для минимизации параболической аппроксимации
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 239-255Нахождение глобального минимума невыпуклых функций — одна из ключевых и самых сложных проблем современной оптимизации. В этой работе мы рассматриваем отдельные классы невыпуклых задач, которые имеют четкий и выраженный глобальный минимум.
В первой части статьи мы рассматриваем два класса «хороших» невыпуклых функций, которые могут быть ограничены снизу и сверху параболической функцией. Такой класс задач не исследован широко в литературе, хотя является довольно интересным с прикладной точки зрения. Более того, для таких задач методы первого и более высоких порядков могут быть абсолютно неэффективны при поиске глобального минимума. Это связано с тем, что функция может сильно осциллировать или может быть сильно зашумлена. Поэтому наши новые методы используют информацию только нулевого порядка и основаны на поиске по сетке. Размер и мелкость этой сетки, а значит, и гарантии скорости сходимости и оракульной сложности зависят от «хорошести» задачи. В частности, мы показываем, если функция зажата довольно близкими параболическими функциями, то сложность не зависит от размерности задачи. Мы показываем, что наши новые методы сходятся с линейной скоростью сходимости $\log(1/\varepsilon)$ к глобальному минимуму на кубе.
Во второй части статьи мы рассматриваем задачу невыпуклой оптимизации с другого ракурса. Мы предполагаем, что целевая минимизируемая функция есть сумма выпуклой квадратичной задачи и невыпуклой «шумовой» функции, пропорциональной по модулю расстоянию до глобального решения. Рассмотрение функций с такими предположениями о шуме для методов нулевого порядка является новым в литературе. Для такой задачи мы используем классический безградиентный подход с аппроксимацией градиента через конечную разность. Мы показываем, как можно свести анализ сходимости для нашей задачи к стандартному анализу для задач выпуклой оптимизации. В частности, и для таких задач мы добиваемся линейной скорости сходимости.
Экспериментальные результаты подтверждают работоспособность и практическую применимость всех полученных методов.
Linearly convergent gradient-free methods for minimization of parabolic approximation
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 239-255Finding the global minimum of a nonconvex function is one of the key and most difficult problems of the modern optimization. In this paper we consider special classes of nonconvex problems which have a clear and distinct global minimum.
In the first part of the paper we consider two classes of «good» nonconvex functions, which can be bounded below and above by a parabolic function. This class of problems has not been widely studied in the literature, although it is rather interesting from an applied point of view. Moreover, for such problems first-order and higher-order methods may be completely ineffective in finding a global minimum. This is due to the fact that the function may oscillate heavily or may be very noisy. Therefore, our new methods use only zero-order information and are based on grid search. The size and fineness of this grid, and hence the guarantee of convergence speed and oracle complexity, depend on the «goodness» of the problem. In particular, we show that if the function is bounded by fairly close parabolic functions, then the complexity is independent of the dimension of the problem. We show that our new methods converge with a linear convergence rate $\log(1/\varepsilon)$ to a global minimum on the cube.
In the second part of the paper, we consider the nonconvex optimization problem from a different angle. We assume that the target minimizing function is the sum of the convex quadratic problem and a nonconvex «noise» function proportional to the distance to the global solution. Considering functions with such noise assumptions for zero-order methods is new in the literature. For such a problem, we use the classical gradient-free approach with gradient approximation through finite differences. We show how the convergence analysis for our problems can be reduced to the standard analysis for convex optimization problems. In particular, we achieve a linear convergence rate for such problems as well.
Experimental results confirm the efficiency and practical applicability of all the obtained methods.
-
Редукция дисперсии для минимаксных задач с небольшой размерностью одной из переменных
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 257-275Статья посвящена выпукло-вогнутым седловым задачам, в которых целевая функция является суммой большого числа слагаемых. Такие задачи привлекают значительное внимание математического сообщества в связи с множеством приложений в машинном обучении, включая adversarial learning, adversarial attacks и robust reinforcement learning, и это лишь некоторые из них. Отдельные функции в сумме обычно представляют собой ошибку, связанную с объектом из выборки. Кроме того, формулировка допускает (возможно, негладкий) композитный член. Такие слагаемые часто отражают регуляризацию в задачах машинного обучения. Предполагается, что размерность одной из групп переменных относительно мала (около сотни или меньше), а другой — велика. Такой случай возникает, например, при рассмотрении двойственной формулировки задачи минимизации с умеренным числом ограничений. Предлагаемый подход основан на использовании метода секущей плоскости Вайды для минимизации относительно внешнего блока переменных. Этот алгоритм оптимизации особенно эффективен, когда размерность задачи не очень велика. Неточный оракул для метода Вайды вычисляется через приближенное решение внутренней задачи максимизации, которая решается ускоренным алгоритмом с редукцией дисперсии Katyusha. Таким образом, мы используем структуру задачи для достижения быстрой сходимости. В исследовании получены отдельные оценки сложности для градиентов различных компонент относительно различных переменных. Предложенный подход накладывает слабые предположения о целевой функции. В частности, не требуется ни сильной выпуклости, ни гладкости относительно низкоразмерной группы переменных. Количество шагов предложенного алгоритма, а также арифметическая сложность каждого шага явно зависят от размерности внешней переменной, отсюда предположение, что она относительно мала.
Ключевые слова: седловые задачи, методы первого порядка, методы секущей плоскости, редукция дисперсии.
Variance reduction for minimax problems with a small dimension of one of the variables
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 257-275The paper is devoted to convex-concave saddle point problems where the objective is a sum of a large number of functions. Such problems attract considerable attention of the mathematical community due to the variety of applications in machine learning, including adversarial learning, adversarial attacks and robust reinforcement learning, to name a few. The individual functions in the sum usually represent losses related to examples from a data set. Additionally, the formulation admits a possibly nonsmooth composite term. Such terms often reflect regularization in machine learning problems. We assume that the dimension of one of the variable groups is relatively small (about a hundred or less), and the other one is large. This case arises, for example, when one considers the dual formulation for a minimization problem with a moderate number of constraints. The proposed approach is based on using Vaidya’s cutting plane method to minimize with respect to the outer block of variables. This optimization algorithm is especially effective when the dimension of the problem is not very large. An inexact oracle for Vaidya’s method is calculated via an approximate solution of the inner maximization problem, which is solved by the accelerated variance reduced algorithm Katyusha. Thus, we leverage the structure of the problem to achieve fast convergence. Separate complexity bounds for gradients of different components with respect to different variables are obtained in the study. The proposed approach is imposing very mild assumptions about the objective. In particular, neither strong convexity nor smoothness is required with respect to the low-dimensional variable group. The number of steps of the proposed algorithm as well as the arithmetic complexity of each step explicitly depend on the dimensionality of the outer variable, hence the assumption that it is relatively small.
-
Об однозначности идентификации параметров скорости реакции в модели горения
Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1469-1476Рассмотрена модель горения предварительно перемешанной смеси газов с одной глобальной химической реакцией, включающая в себя уравнения второго порядка относительно температуры смеси и концентраций топлива и окислителя, в правые части которых входит функция скорости реакции. Эта функция зависит от пяти неизвестных параметров глобальной реакции и служит приближением для многоступенчатого механизма реакций. Модель сводится к одному уравнению второго порядка относительно температуры смеси, которое после замены переменных преобразуется к уравнению первого порядка относительно производной температуры, зависящей от температуры, в которое входит параметр скорости распространения пламени. Таким образом, для вычисления параметра скорости распространения пламени необходимо решить задачу Дирихле для уравнения первого порядка, в результате чего получится модельная зависимость скорости распространения пламени от эквивалентного отношения смеси при заданных параметрах скорости реакции. При наличии экспериментальных данных зависимости скорости распространения пламени от эквивалентного отношения смеси ставится задача оптимального подбора параметров скорости реакции, исходя из минимизации среднеквадратичного отклонения модельных значений скорости распространения пламени от эксперимента. Целью работы является исследование однозначности решения этой задачи. Для этого применяется вычислительный эксперимент, в ходе которого решается задача глобального поиска оптимумов с помощью мультистарта градиентного спуска. В ходе вычислительного эксперимента выяснено, что обратная задача в такой постановке является недоопределенной, и всякий раз при запуске градиентного метода из новой точки получается новая предельная точка. Исследована структура множества предельных точек в пятимерном пространстве параметров и показано, что это множество может быть описано тремя линейными уравнениями. Таким образом, будет некорректным табулировать все пять параметров скорости реакции исходя из одного лишь критерия соответствия модели данным скорости распространения пламени. Вывод исследования заключается в том, что для корректного табулирования параметров необходимо указать значения двух из них исходя из дополнительных критериев оптимальности.
Ключевые слова: модель горения, обратная задача, метод наименьших квадратов, метод градиентного спуска, глобальная оптимизация.
On the uniqueness of identification of reaction rate parameters in a combustion model
Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1469-1476A model of combustion of premixed mixture of gases with one global chemical reaction is considered, the model includes equations of the second order for temperature of mixture and concentrations of fuel and oxidizer, and the right-hand sides of these equations contain the reaction rate function. This function depends on five unknown parameters of the global reaction and serves as approximation to multistep reaction mechanism. The model is reduced, after replacement of variables, to one equation of the second order for temperature of mixture that transforms to a first-order equation for temperature derivative depending on temperature that contains a parameter of flame propagation velocity. Thus, for computing the parameter of burning velocity, one has to solve Dirichlet problem for first-order equation, and after that a model dependence of burning velocity on mixture equivalence ratio at specified reaction rate parameters will be obtained. Given the experimental data of dependence of burning velocity on mixture equivalence ratio, the problem of optimal selection of reaction rate parameters is stated, based on minimization of the mean square deviation of model values of burning velocity on experimental ones. The aim of our study is analysis of uniqueness of this problem solution. To this end, we apply computational experiment during which the problem of global search of optima is solved using multistart of gradient descent. The computational experiment clarifies that the inverse problem in this statement is underdetermined, and every time, when running gradient descent from a selected starting point, it converges to a new limit point. The structure of the set of limit points in the five-dimensional space is analyzed, and it is shown that this set can be described with three linear equations. Therefore, it might be incorrect to tabulate all five parameters of reaction rate based on just one match criterion between model and experimental data of flame propagation velocity. The conclusion of our study is that in order to tabulate reaction rate parameters correctly, it is necessary to specify the values of two of them, based on additional optimality criteria.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"





