Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Влияние конечности мантиссы на точность безградиентных методов оптимизации
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 259-280Безградиентные методы оптимизации, или методы нулевого порядка, широко применяются в обучении нейронных сетей, обучении с подкреплением, а также в промышленных задачах, где доступны лишь значения функции в точке (работа с неаналитическими функциями). В частности, метод обратного распространения ошибки в PyTorch работает именно по этому принципу. Существует общеизвестный факт, что при компьютерных вычислениях используется эвристика чисел с плавающей точкой, и из-за этого возникает проблема конечности мантиссы.
В этой работе мы, во-первых, сделали обзор наиболее популярных методов аппроксимации градиента: конечная прямая/центральная разность (FFD/FCD), покомпонентная прямая/центральная разность (FWC/CWC), прямая/центральная рандомизация на $l_2$ сфере (FSSG2/CFFG2); во-вторых, мы описали текущие теоретические представления шума, вносимого неточностью вычисления функции в точке: враждебный шум, случайный шум; в-третьих, мы провели серию экспериментов на часто встречающихся классах задач, таких как квадратичная задача, логистическая регрессия, SVM, чтобы попытаться определить, соответствует ли реальная природа машинного шума существующей теории. Оказалось, что в реальности (по крайней мере на тех классах задач, которые были рассмотрены в данной работе) машинный шум оказался чем-то средним между враждебным шумом и случайным, в связи с чем текущая теория о влиянии конечности мантиссы на поиск оптимума в задачах безградиентной оптимизации требует некоторой корректировки.
Ключевые слова: конечность мантиссы, безградиентные методы оптимизации, аппроксима- ция градиента, градиентный спуск, квадратичная задача, логистическая регрессия.
Influence of the mantissa finiteness on the accuracy of gradient-free optimization methods
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 259-280Gradient-free optimization methods or zeroth-order methods are widely used in training neural networks, reinforcement learning, as well as in industrial tasks where only the values of a function at a point are available (working with non-analytical functions). In particular, the method of error back propagation in PyTorch works exactly on this principle. There is a well-known fact that computer calculations use heuristics of floating-point numbers, and because of this, the problem of finiteness of the mantissa arises.
In this paper, firstly, we reviewed the most popular methods of gradient approximation: Finite forward/central difference (FFD/FCD), Forward/Central wise component (FWC/CWC), Forward/Central randomization on $l_2$ sphere (FSSG2/CFFG2); secondly, we described current theoretical representations of the noise introduced by the inaccuracy of calculating the function at a point: adversarial noise, random noise; thirdly, we conducted a series of experiments on frequently encountered classes of problems, such as quadratic problem, logistic regression, SVM, to try to determine whether the real nature of machine noise corresponds to the existing theory. It turned out that in reality (at least for those classes of problems that were considered in this paper), machine noise turned out to be something between adversarial noise and random, and therefore the current theory about the influence of the mantissa limb on the search for the optimum in gradient-free optimization problems requires some adjustment.
-
Редукция дисперсии для минимаксных задач с небольшой размерностью одной из переменных
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 257-275Статья посвящена выпукло-вогнутым седловым задачам, в которых целевая функция является суммой большого числа слагаемых. Такие задачи привлекают значительное внимание математического сообщества в связи с множеством приложений в машинном обучении, включая adversarial learning, adversarial attacks и robust reinforcement learning, и это лишь некоторые из них. Отдельные функции в сумме обычно представляют собой ошибку, связанную с объектом из выборки. Кроме того, формулировка допускает (возможно, негладкий) композитный член. Такие слагаемые часто отражают регуляризацию в задачах машинного обучения. Предполагается, что размерность одной из групп переменных относительно мала (около сотни или меньше), а другой — велика. Такой случай возникает, например, при рассмотрении двойственной формулировки задачи минимизации с умеренным числом ограничений. Предлагаемый подход основан на использовании метода секущей плоскости Вайды для минимизации относительно внешнего блока переменных. Этот алгоритм оптимизации особенно эффективен, когда размерность задачи не очень велика. Неточный оракул для метода Вайды вычисляется через приближенное решение внутренней задачи максимизации, которая решается ускоренным алгоритмом с редукцией дисперсии Katyusha. Таким образом, мы используем структуру задачи для достижения быстрой сходимости. В исследовании получены отдельные оценки сложности для градиентов различных компонент относительно различных переменных. Предложенный подход накладывает слабые предположения о целевой функции. В частности, не требуется ни сильной выпуклости, ни гладкости относительно низкоразмерной группы переменных. Количество шагов предложенного алгоритма, а также арифметическая сложность каждого шага явно зависят от размерности внешней переменной, отсюда предположение, что она относительно мала.
Ключевые слова: седловые задачи, методы первого порядка, методы секущей плоскости, редукция дисперсии.
Variance reduction for minimax problems with a small dimension of one of the variables
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 257-275The paper is devoted to convex-concave saddle point problems where the objective is a sum of a large number of functions. Such problems attract considerable attention of the mathematical community due to the variety of applications in machine learning, including adversarial learning, adversarial attacks and robust reinforcement learning, to name a few. The individual functions in the sum usually represent losses related to examples from a data set. Additionally, the formulation admits a possibly nonsmooth composite term. Such terms often reflect regularization in machine learning problems. We assume that the dimension of one of the variable groups is relatively small (about a hundred or less), and the other one is large. This case arises, for example, when one considers the dual formulation for a minimization problem with a moderate number of constraints. The proposed approach is based on using Vaidya’s cutting plane method to minimize with respect to the outer block of variables. This optimization algorithm is especially effective when the dimension of the problem is not very large. An inexact oracle for Vaidya’s method is calculated via an approximate solution of the inner maximization problem, which is solved by the accelerated variance reduced algorithm Katyusha. Thus, we leverage the structure of the problem to achieve fast convergence. Separate complexity bounds for gradients of different components with respect to different variables are obtained in the study. The proposed approach is imposing very mild assumptions about the objective. In particular, neither strong convexity nor smoothness is required with respect to the low-dimensional variable group. The number of steps of the proposed algorithm as well as the arithmetic complexity of each step explicitly depend on the dimensionality of the outer variable, hence the assumption that it is relatively small.
-
Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 45-56В данной работе представлены результаты экспериментальной проверки некоторых вопросов, касающихся практического использования методов преодоления катастрофической забывчивости нейронных сетей. Проведено сравнение двух таких современных методов: метода эластичного закрепления весов (EWC, Elastic Weight Consolidation) и метода ослабления скоростей весов (WVA, Weight Velocity Attenuation). Разобраныих преимущества и недостатки в сравнении друг с другом. Показано, что метод эластичного закрепления весов (EWC) лучше применять в задачах, где требуется полностью сохранять выученные навыки на всех задачах в очереди обучения, а метод ослабления скоростей весов (WVA) больше подходит для задач последовательного обучения с сильно ограниченными вычислительными ресурсами или же когда требуется не точное сохранение всех навыков, а переиспользование репрезентаций и ускорение обучения от задачи к задаче. Проверено и подтверждено интуитивное предположение, что ослабление метода WVA необходимо применять к оптимизационному шагу, то есть к приращениям весов нейронной сети, а не к самому градиенту функции потерь, и это справедливо для любого градиентного оптимизационного метода, кроме простейшего стохастического градиентного спуска (SGD), для которого оптимизационный шаг и градиент функции потерь пропорциональны. Рассмотрен выбор оптимальной функции ослабления скоростей весов между гиперболической функцией и экспонентой. Показано, что гиперболическое убывание более предпочтительно, так как, несмотря на сравнимое качество при оптимальных значениях гиперпараметра метода WVA, оно более устойчиво к отклонениям гиперпараметра от оптимального значения (данный гиперпараметр в методе WVA обеспечивает баланс между сохранением старых навыков и обучением новой задаче). Приведены эмпирические наблюдения, которые подтверждают гипотезу о том, что оптимальное значение гиперпараметра не зависит от числа задач в очереди последовательного обучения. Следовательно, данный гиперпараметр может подбираться на небольшом числе задач, а использоваться — на более длинных последовательностях.
Ключевые слова: катастрофическая забывчивость, эластичное закрепление весов, EWC, ослабление скоростей весов, WVA, нейронные сети, последовательное обучение, машинное обучение, искусственный интеллект.
Modern ways to overcome neural networks catastrophic forgetting and empirical investigations on their structural issues
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 45-56This paper presents the results of experimental validation of some structural issues concerning the practical use of methods to overcome catastrophic forgetting of neural networks. A comparison of current effective methods like EWC (Elastic Weight Consolidation) and WVA (Weight Velocity Attenuation) is made and their advantages and disadvantages are considered. It is shown that EWC is better for tasks where full retention of learned skills is required on all the tasks in the training queue, while WVA is more suitable for sequential tasks with very limited computational resources, or when reuse of representations and acceleration of learning from task to task is required rather than exact retention of the skills. The attenuation of the WVA method must be applied to the optimization step, i. e. to the increments of neural network weights, rather than to the loss function gradient itself, and this is true for any gradient optimization method except the simplest stochastic gradient descent (SGD). The choice of the optimal weights attenuation function between the hyperbolic function and the exponent is considered. It is shown that hyperbolic attenuation is preferable because, despite comparable quality at optimal values of the hyperparameter of the WVA method, it is more robust to hyperparameter deviations from the optimal value (this hyperparameter in the WVA method provides a balance between preservation of old skills and learning a new skill). Empirical observations are presented that support the hypothesis that the optimal value of this hyperparameter does not depend on the number of tasks in the sequential learning queue. And, consequently, this hyperparameter can be picked up on a small number of tasks and used on longer sequences.
-
Об однозначности идентификации параметров скорости реакции в модели горения
Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1469-1476Рассмотрена модель горения предварительно перемешанной смеси газов с одной глобальной химической реакцией, включающая в себя уравнения второго порядка относительно температуры смеси и концентраций топлива и окислителя, в правые части которых входит функция скорости реакции. Эта функция зависит от пяти неизвестных параметров глобальной реакции и служит приближением для многоступенчатого механизма реакций. Модель сводится к одному уравнению второго порядка относительно температуры смеси, которое после замены переменных преобразуется к уравнению первого порядка относительно производной температуры, зависящей от температуры, в которое входит параметр скорости распространения пламени. Таким образом, для вычисления параметра скорости распространения пламени необходимо решить задачу Дирихле для уравнения первого порядка, в результате чего получится модельная зависимость скорости распространения пламени от эквивалентного отношения смеси при заданных параметрах скорости реакции. При наличии экспериментальных данных зависимости скорости распространения пламени от эквивалентного отношения смеси ставится задача оптимального подбора параметров скорости реакции, исходя из минимизации среднеквадратичного отклонения модельных значений скорости распространения пламени от эксперимента. Целью работы является исследование однозначности решения этой задачи. Для этого применяется вычислительный эксперимент, в ходе которого решается задача глобального поиска оптимумов с помощью мультистарта градиентного спуска. В ходе вычислительного эксперимента выяснено, что обратная задача в такой постановке является недоопределенной, и всякий раз при запуске градиентного метода из новой точки получается новая предельная точка. Исследована структура множества предельных точек в пятимерном пространстве параметров и показано, что это множество может быть описано тремя линейными уравнениями. Таким образом, будет некорректным табулировать все пять параметров скорости реакции исходя из одного лишь критерия соответствия модели данным скорости распространения пламени. Вывод исследования заключается в том, что для корректного табулирования параметров необходимо указать значения двух из них исходя из дополнительных критериев оптимальности.
Ключевые слова: модель горения, обратная задача, метод наименьших квадратов, метод градиентного спуска, глобальная оптимизация.
On the uniqueness of identification of reaction rate parameters in a combustion model
Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1469-1476A model of combustion of premixed mixture of gases with one global chemical reaction is considered, the model includes equations of the second order for temperature of mixture and concentrations of fuel and oxidizer, and the right-hand sides of these equations contain the reaction rate function. This function depends on five unknown parameters of the global reaction and serves as approximation to multistep reaction mechanism. The model is reduced, after replacement of variables, to one equation of the second order for temperature of mixture that transforms to a first-order equation for temperature derivative depending on temperature that contains a parameter of flame propagation velocity. Thus, for computing the parameter of burning velocity, one has to solve Dirichlet problem for first-order equation, and after that a model dependence of burning velocity on mixture equivalence ratio at specified reaction rate parameters will be obtained. Given the experimental data of dependence of burning velocity on mixture equivalence ratio, the problem of optimal selection of reaction rate parameters is stated, based on minimization of the mean square deviation of model values of burning velocity on experimental ones. The aim of our study is analysis of uniqueness of this problem solution. To this end, we apply computational experiment during which the problem of global search of optima is solved using multistart of gradient descent. The computational experiment clarifies that the inverse problem in this statement is underdetermined, and every time, when running gradient descent from a selected starting point, it converges to a new limit point. The structure of the set of limit points in the five-dimensional space is analyzed, and it is shown that this set can be described with three linear equations. Therefore, it might be incorrect to tabulate all five parameters of reaction rate based on just one match criterion between model and experimental data of flame propagation velocity. The conclusion of our study is that in order to tabulate reaction rate parameters correctly, it is necessary to specify the values of two of them, based on additional optimality criteria.
-
Компенсация собственных нелинейных помех на основе смешанного метода Ньютона
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1579-1592В статье исследуется одно из возможных решений задачи компенсации собственных помех (SIC, Self-Interference Cancellation), возникающей при проектировании полнодуплексных (IBFD, In-band Full-Duplex) систем связи. Подавление собственных помех осуществляется в цифровой области с помощью многослойных нелинейных моделей, которые адаптируются на основе метода градиентного спуска. Наличие локальных оптимумов и седловых точек при адаптации многослойных моделей делает невозможным использование методов второго порядка ввиду знаконеопределенности матрицы Гессе.
В данной работе предложено использовать смешанный метод Ньютона (MNM, mixed Newton method), который учитывает информацию о смешанных производных второго порядка функции потерь и, как следствие, обеспечивает высокую скорость сходимости по сравнению с традиционными методами первого порядка. Использование лишь только смешанных частных производных второго порядка при построении матрицы Гессе позволяет избежать проблемы «застревания» в седловых точках при использовании смешанного метода Ньютона для адаптации многослойных нелинейных компенсаторов собственных помех при проектировании полнодуплексных систем связи.
В качестве модели собственных нелинейных помех выбрана модель Гаммерштейна с комплексными параметрами. Данный выбор обусловлен тем, что модель эффективно описывает физические свойства, лежащие в основе формирования собственных помех. Благодаря свойству голоморфности выхода модели смешанный метод Ньютона обеспечивает свойство «отталкивания» от седловых точек в ландшафте функции потерь.
В работе приводятся кривые сходимости при адаптации модели Гаммерштейна смешанным методом Ньютона, а также при помощи классических подходов на основе метода градиентного спуска. Кроме того, приводится вывод предложенного метода, а также оценка вычислительной сложности.
Ключевые слова: метод второго порядка, комплекснозначный гессиан, полнодуплексные системы связи, компенсация собственных помех.
Non-linear self-interference cancellation on base of mixed Newton method
Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1579-1592The paper investigates a potential solution to the problem of Self-Interference Cancellation (SIC) encountered in the design of In-Band Full-Duplex (IBFD) communication systems. The suppression of selfinterference is implemented in the digital domain using multilayer nonlinear models adapted via the gradient descent method. The presence of local optima and saddle points in the adaptation of multilayer models prevents the use of second-order methods due to the indefinite nature of the Hessian matrix.
This work proposes the use of the Mixed Newton Method (MNM), which incorporates information about the second-order mixed partial derivatives of the loss function, thereby enabling a faster convergence rate compared to traditional first-order methods. By constructing the Hessian matrix solely with mixed second-order partial derivatives, this approach mitigates the issue of “getting stuck” at saddle points when applying the Mixed Newton Method for adapting multilayer nonlinear self-interference compensators in full-duplex system design.
The Hammerstein model with complex parameters has been selected to represent nonlinear selfinterference. This choice is motivated by the model’s ability to accurately describe the underlying physical properties of self-interference formation. Due to the holomorphic property of the model output, the Mixed Newton Method provides a “repulsion” effect from saddle points in the loss landscape.
The paper presents convergence curves for the adaptation of the Hammerstein model using both the Mixed Newton Method and conventional gradient descent-based approaches. Additionally, it provides a derivation of the proposed method along with an assessment of its computational complexity.
-
Алгоритмы сквозного счета для процессов разрушения
Компьютерные исследования и моделирование, 2018, т. 10, № 5, с. 645-666В работе проведен краткий обзор имеющихся подходов к расчету разрушения твердых тел. Основное внимание уделено алгоритмам, использующим единый подход к расчету деформирования и для неразрушенного, и для разрушенного состояний материала. Представлен термодинамический вывод единых реологических соотношений, учитывающих упругие, вязкие и пластические свойства материалов и описывающих потерю способности сопротивления деформации по мере накопления микроповреждений. Показано, что рассматриваемая математическая модель обеспечивает непрерывную зависимость решения от входных параметров (параметров материальной среды, начальных и граничных условий, параметров дискретизации) при разупрочнении материала.
Представлены явные и неявные безматричные алгоритмы расчета эволюции деформирования. Неявные схемы реализованы с использованием итераций метода сопряженных градиентов, при этом расчет каждой итерации в точности совпадает с расчетом шага по времени для двухслойных явных схем. Так что алгоритмы решения являются очень простыми.
Приведены результаты решения типовых задач разрушения твердых деформируемых тел для медленных (квазистатических) и быстрых (динамических) процессов деформации. На основании опыта рас- четов даны рекомендации по моделированию процессов разрушения и обеспечению достоверности численных решений.
Ключевые слова: разрушение, повреждаемость, упругость, вязкость, пластичность, термодинамика, определяющие соотношения, разупрочнение, сеточные методы, сквозной счет.
Algorithms of through calculation for damage processes
Computer Research and Modeling, 2018, v. 10, no. 5, pp. 645-666Просмотров за год: 24.The paper reviews the existing approaches to calculating the destruction of solids. The main attention is paid to algorithms using a unified approach to the calculation of deformation both for nondestructive and for the destroyed states of the material. The thermodynamic derivation of the unified rheological relationships taking into account the elastic, viscous and plastic properties of materials and describing the loss of the deformation resistance ability with the accumulation of microdamages is presented. It is shown that the mathematical model under consideration provides a continuous dependence of the solution on input parameters (parameters of the material medium, initial and boundary conditions, discretization parameters) with softening of the material.
Explicit and implicit non-matrix algorithms for calculating the evolution of deformation and fracture development are presented. Non-explicit schemes are implemented using iterations of the conjugate gradient method, with the calculation of each iteration exactly coinciding with the calculation of the time step for two-layer explicit schemes. So, the solution algorithms are very simple.
The results of solving typical problems of destruction of solid deformable bodies for slow (quasistatic) and fast (dynamic) deformation processes are presented. Based on the experience of calculations, recommendations are given for modeling the processes of destruction and ensuring the reliability of numerical solutions.
-
Решатель уравнения Больцмана на неструктурированных пространственных сетках
Компьютерные исследования и моделирование, 2019, т. 11, № 3, с. 427-447Целью данной работы является создание достаточно универсальной вычислительной программы (решателя) кинетического уравнения Больцмана для моделирования течений разреженного газа в устройствах сложной формы. Подробно описывается структура решателя, а его эффективность демонстрируется на примере расчета современной конструкции многотрубочного насоса Кнудсена. Решение уравнения Больцмана выполняется на фиксированных пространственной и скоростной сетках с помощью метода расщепления по физическим процессам. Дифференциальный оператор переноса аппроксимируется методом конечных разностей. Вычисление интеграла столкновений производится на основе консервативного проекционного метода.
Пространственная неструктурированная сетка строится с помощью внешнего генератора сеток и может включать в себя призмы, тетраэдры, гексаэдры и пирамиды. Сетка сгущается в областях течения с наибольшими градиентами рассчитываемых величин. Трехмерная скоростная сетка состоит из кубических ячеек равного объема.
Большой объем вычислений требует эффективного распараллеливания алгоритма, что реализовано на основе методики Message Passing Interface (MPI). Передача информации от одного узла MPI к другому осуществляется как разновидность граничного условия — таким образом, каждый MPI узел может хранить только ту часть сетки, которая имеет отношение конкретно к нему.
В результате получен график разности давлений в двух резервуарах, соединенных многотрубочным насосом Кнудсена в зависимости от числа Кнудсена, т. е. получена численными методами характеристика, ответственная за качество работы термомолекулярного микронасоса. Также показаны распределения давления, температуры и концентрации газа в установившемся состоянии внутри резервуаров и самого микронасоса.
Корректность работы солвера проверяется на тестах с распределением температуры газа между двух нагретых до разной температуры пластинок, а также в тесте с сохранением общей массы газа.
Корректность полученных данных для многотрубочного насоса Кнудсена проверяется на более точных скоростной и пространственной сетках, а также при использовании большего количества столкновений в интеграле столкновений за шаг.
Ключевые слова: уравнение Больцмана, эффект Кнудсена, неструктурированная сетка, микронасос, функция распределения, интеграл столкновений, проекционный метод.
The Solver of Boltzmann equation on unstructured spatial grids
Computer Research and Modeling, 2019, v. 11, no. 3, pp. 427-447Просмотров за год: 13.The purpose of this work is to develop a universal computer program (solver) which solves kinetic Boltzmann equation for simulations of rarefied gas flows in complexly shaped devices. The structure of the solver is described in details. Its efficiency is demonstrated on an example of calculations of a modern many tubes Knudsen pump. The kinetic Boltzmann equation is solved by finite-difference method on discrete grid in spatial and velocity spaces. The differential advection operator is approximated by finite difference method. The calculation of the collision integral is based on the conservative projection method.
In the developed computational program the unstructured spatial mesh is generated using GMSH and may include prisms, tetrahedrons, hexahedrons and pyramids. The mesh is denser in areas of flow with large gradients of gas parameters. A three-dimensional velocity grid consists of cubic cells of equal volume.
A huge amount of calculations requires effective parallelization of the algorithm which is implemented in the program with the use of Message Passing Interface (MPI) technology. An information transfer from one node to another is implemented as a kind of boundary condition. As a result, every MPI node contains the information about only its part of the grid.
The main result of the work is presented in the graph of pressure difference in 2 reservoirs connected by a multitube Knudsen pump from Knudsen number. This characteristic of the Knudsen pump obtained by numerical methods shows the quality of the pump. Distributions of pressure, temperature and gas concentration in a steady state inside the pump and the reservoirs are presented as well.
The correctness of the solver is checked using two special test solutions of more simple boundary problems — test with temperature distribution between 2 planes with different temperatures and test with conservation of total gas mass.
The correctness of the obtained data for multitube Knudsen pump is checked using denser spatial and velocity grids, using more collisions in collision integral per time step.
-
О численном решении совместных обратных задач геофизики с использованием требования структурного подобия
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 329-343Решение обратных геофизических задач сложно в силу их математически некорректной постановки и большой вычислительной емкости. Геофизическая разведка малоизученных регионов, таких как шельф северных морей, дополнительно осложнена отсутствием надежных геологических данных. В этих условиях большое значение приобретают способы совместного использования информации, полученной различными геофизическими методами. Настоящая работа посвящена развитию подхода к совместной инверсии, основанного на требовании обращения в ноль определителя матрицы Грама для векторов параметров тех типов, которые используются в инверсии. В рамках этого подхода минимизируется нелинейный функционал, состоящий из суммы квадратов взвешенных невязок, суммы стабилизирующих функционалов и члена, отвечающего за наложение условия структурного подобия. Мы применяем этот подход к инверсии двух типов геофизических данных: сейсмики и электроразведки. Мы изучаем инверсию акустических данных совместно с низкочастотным электрическим полем с наложением требования структурного подобия на результирующие распределения скорости звука и электропроводности.
Рассмотрены постановка задачи обратной задачи и численный метод оптимизации. Нелинейная минимизация выполняется методом сопряженных градиентов. Эффективность разработанного подхода продемонстрирована на численном примере, в котором трехмерное распределение электропроводности считалось известным точно, а распределение скорости звука подбиралось путем решения соответствующей обратной задачи. Для численного эксперимента было использовано распределение скорости звука, построенное на основании упрощенных сейсмических горизонтов реального морского месторождения. Для этого распределения рассчитывались синтетические сейсмограммы, которые служили входными данными для алгоритма инверсии. Результирующее распределение скорости звука не только обеспечивало совпадение данных до заданной точности, но и было согласовано с заданным распределением электропроводности. На численных примерах продемонстрировано, что оптимально выбранный вес структурного ограничения может существенно улучшить детальность решения обратной задачи и позволяет восстановить особенности, которые иначе были бы не разрешены.
On numerical solution of joint inverse geophysical problems with structural constraints
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 329-343Inverse geophysical problems are difficult to solve due to their mathematically incorrect formulation and large computational complexity. Geophysical exploration in frontier areas is even more complicated due to the lack of reliable geological information. In this case, inversion methods that allow interpretation of several types of geophysical data together are recognized to be of major importance. This paper is dedicated to one of such inversion methods, which is based on minimization of the determinant of the Gram matrix for a set of model vectors. Within the framework of this approach, we minimize a nonlinear functional, which consists of squared norms of data residual of different types, the sum of stabilizing functionals and a term that measures the structural similarity between different model vectors. We apply this approach to seismic and electromagnetic synthetic data set. Specifically, we study joint inversion of acoustic pressure response together with controlled-source electrical field imposing structural constraints on resulting electrical conductivity and P-wave velocity distributions.
We start off this note with the problem formulation and present the numerical method for inverse problem. We implemented the conjugate-gradient algorithm for non-linear optimization. The efficiency of our approach is demonstrated in numerical experiments, in which the true 3D electrical conductivity model was assumed to be known, but the velocity model was constructed during inversion of seismic data. The true velocity model was based on a simplified geology structure of a marine prospect. Synthetic seismic data was used as an input for our minimization algorithm. The resulting velocity model not only fit to the data but also has structural similarity with the given conductivity model. Our tests have shown that optimally chosen weight of the Gramian term may improve resolution of the final models considerably.
-
Ускоренные адаптивные по константам сильной выпуклости и Липшица для градиента методы первого порядка
Компьютерные исследования и моделирование, 2021, т. 13, № 5, с. 947-963Работа посвящена построению эффективных и применимых к реальным задачам методов выпуклой оптимизации первого порядка, то есть использующих только значения целевой функции и ее производных. При построении используется быстрый градиентный метод OGM-G, который является оптимальным по оракульной сложности (числу вычислений градиента целевой функции), но при запуске требует знания констант сильной выпуклости и Липшица градиента для вычисления количества шагов и длины шага, требуемых для достижения заданной точности. Данное требование усложняет практическое использование метода. Предлагаются адаптивный по константе сильной выпуклости алгоритм ACGM, основанный на рестартах OGM-G с обновлениемо ценки константы сильной выпуклости, и адаптивный по константе Липшица градиента метод ALGM, в котором применение рестартов OGM-G дополнено подбором константы Липшица с проверкой условий гладкости, используемых в методе универсального градиентного спуска. При этом устраняются недостатки исходного метода, связанные с необходимостью знания данных констант, что делает возможным практическое использование. Доказывается, что оценки сложности построенных алгоритмов являются оптимальными с точностью до числового множителя. Для проверки полученных результатов проводятся эксперименты на модельных функциях и реальных задачах машинного обучения.
Ключевые слова: быстрый градиентный метод, адаптивность по константе сильной выпуклости, адаптивность по константе Липшица градиента.
Fast adaptive by constants of strong-convexity and Lipschitz for gradient first order methods
Computer Research and Modeling, 2021, v. 13, no. 5, pp. 947-963The work is devoted to the construction of efficient and applicable to real tasks first-order methods of convex optimization, that is, using only values of the target function and its derivatives. Construction uses OGMG, fast gradient method which is optimal by complexity, but requires to know the Lipschitz constant for gradient and the strong convexity constant to determine the number of steps and step length. This requirement makes practical usage very hard. An adaptive on the constant for strong convexity algorithm ACGM is proposed, based on restarts of the OGM-G with update of the strong convexity constant estimate, and an adaptive on the Lipschitz constant for gradient ALGM, in which the use of OGM-G restarts is supplemented by the selection of the Lipschitz constant with verification of the smoothness conditions used in the universal gradient descent method. This eliminates the disadvantages of the original method associated with the need to know these constants, which makes practical usage possible. Optimality of estimates for the complexity of the constructed algorithms is proved. To verify the results obtained, experiments on model functions and real tasks from machine learning are carried out.
-
О модификации метода покомпонентного спуска для решения некоторых обратных задач математической физики
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 301-316Статья посвящена решению некорректно поставленных задач математической физики для эллиптических и параболических уравнений, а именно задачи Коши для уравнения Гельмгольца и ретроспективной задачи Коши для уравнения теплопроводности с постоянными коэффициентами. Эти задачи сводятся к задачам выпуклой оптимизации в гильбертовом пространстве. Градиенты соответствующих функционалов вычисляются приближенно с помощью решения двух корректных задач. Предлагается метод решения исследуемых задач оптимизации — покомпонентный спуск в базисе из собственных функций связанного с задачей самосопряженного оператора. Если бы было возможно точное вычисление градиента, то этот метод давал бы сколь угодно точное решение задачи в зависимости от количества рассматриваемых элементов базиса. В реальных случаях возникновение погрешностей при вычислениях приводит к нарушению монотонности, что требует применения рестартов и ограничивает достижимое качество. В работе приводятся результаты экспериментов, подтверждающие эффективность построенного метода. Определяется, что новый подход превосходит подходы, основанные на использовании градиентных методов оптимизации: он позволяет достичь лучшего качества решения при значительно меньшем расходе вычислительных ресурсов. Предполагается, что построенный метод может быть обобщен и на другие задачи.
Ключевые слова: обратные задачи, выпуклая оптимизация, оптимизация в гильбертовом пространстве, методы первого порядка, покомпонентный спуск, неточный оракул.
On the modification of the method of component descent for solving some inverse problems of mathematical physics
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 301-316The article is devoted to solving ill-posed problems of mathematical physics for elliptic and parabolic equations, such as the Cauchy problem for the Helmholtz equation and the retrospective Cauchy problem for the heat equation with constant coefficients. These problems are reduced to problems of convex optimization in Hilbert space. The gradients of the corresponding functionals are calculated approximately by solving two well-posed problems. A new method is proposed for solving the optimization problems under study, it is component-by-component descent in the basis of eigenfunctions of a self-adjoint operator associated with the problem. If it was possible to calculate the gradient exactly, this method would give an arbitrarily exact solution of the problem, depending on the number of considered elements of the basis. In real cases, the inaccuracy of calculations leads to a violation of monotonicity, which requires the use of restarts and limits the achievable quality. The paper presents the results of experiments confirming the effectiveness of the constructed method. It is determined that the new approach is superior to approaches based on the use of gradient optimization methods: it allows to achieve better quality of solution with significantly less computational resources. It is assumed that the constructed method can be generalized to other problems.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"