Текущий выпуск Номер 2, 2024 Том 16

Все выпуски

Результаты поиска по 'ergodicity':
Найдено статей: 3
  1. Малинецкий Г.Г., Фаллер Д.С.
    Переход к хаосу в системах «реакция–диффузия». Простейшие модели
    Компьютерные исследования и моделирование, 2014, т. 6, № 1, с. 3-12

    В работе рассматривается появление хаотических аттракторов в системе трех обыкновенных дифференциальных уравнений, возникающих в теории систем «реакция–диффузия». Исследуются динамика соответствующих одномерных и двумерных отображений и ляпуновские показатели возникающих аттракторов. Показано, что переход к хаосу происходит по нетрадиционному сценарию, связанному с многократным рождением и исчезновением хаотических режимов, который ранее был изучен для одномерных отображений с острой вершиной и квадратичным минимумом. С помощью численного анализа были исследованы характерные особенности системы: наличие областей бистабильности и гиперболичности, кризис хаотических аттракторов.

    Malinetsky G.G., Faller D.S.
    Transition to chaos in the «reaction–diffusion» systems. The simplest models
    Computer Research and Modeling, 2014, v. 6, no. 1, pp. 3-12

    The article discusses the emergence of chaotic attractors in the system of three ordinary differential equations arising in the theory of «reaction-diffusion» systems. The dynamics of the corresponding one- and two-dimensional maps and Lyapunov exponents of such attractors are studied. It is shown that the transition to chaos is in accordance with a non-traditional scenario of repeated birth and disappearance of chaotic regimes, which had been previously studied for one-dimensional maps with a sharp apex and a quadratic minimum. Some characteristic features of the system — zones of bistability and hyperbolicity, the crisis of chaotic attractors — are studied by means of numerical analysis.

    Просмотров за год: 6. Цитирований: 1 (РИНЦ).
  2. Руденко В.Д., Юдин Н.Е., Васин А.А.
    Обзор выпуклой оптимизации марковских процессов принятия решений
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353

    В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

    Rudenko V.D., Yudin N.E., Vasin A.A.
    Survey of convex optimization of Markov decision processes
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353

    This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.

  3. Фиалко Н.С., Ольшевец М.М., Лахно В.Д.
    Численное исследование модели Холстейна в разных термостатах
    Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 489-502

    На основе гамильтониана Холстейна промоделирована динамика заряда, привнесенного в молекулярную цепочку сайтов, при разной температуре. При расчете температура цепочки задается начальными данными — случайными гауссовыми распределениями скоростей и смещений сайтов. Рассмотрены разные варианты начального распределенияз арядовой плотности. Расчеты показывают, что система на больших расчетных временах переходит к колебаниям около нового равновесного состояния. Для одинаковых начальных скоростей и смещений средняя кинетическая энергия (и, соответственно, температура $T$) цепочки меняется в зависимости от начального распределения зарядовой плотности: убывает при внесении в цепочку полярона или увеличивается, если в начальный момент электронная часть энергии максимальна.

    Проведено сравнение с результатами, полученными ранее в модели с термостатом Ланжевена. В обоих случаях существование полярона определяется тепловой энергией всей цепочки. По результатам моделирования, переход от режима полярона к делокализованному состоянию происходит в одинаковой области значений тепловой энергии цепочки $N$ сайтов ~ $NT$ для обоих вариантов термостата, с дополнительной корректировкой: для гамильтоновой системы температура не соответствует начально заданной, а определяется на больших расчетных временах из средней кинетической энергии цепочки.

    В поляронной области применение разных способов имитации температуры приводит к ряду существенных различий в динамике системы. В области делокализованного состояния заряда, для больших температур, результаты, усредненные по набору траекторий в системе со случайной силой, и результаты, усредненные по времени для гамильтоновой системы, близки, что не противоречит гипотезе эргодичности. С практической точки зрения для больших температур T ≈ 300 K при моделировании переноса заряда в однородных цепочках можно использовать любой вариант задания термостата.

    Fialko N.S., Olshevets M.M., Lakhno V.D.
    Numerical study of the Holstein model in different thermostats
    Computer Research and Modeling, 2024, v. 16, no. 2, pp. 489-502

    Based on the Holstein Hamiltonian, the dynamics of the charge introduced into the molecular chain of sites was modeled at different temperatures. In the calculation, the temperature of the chain is set by the initial data ¡ª random Gaussian distributions of velocities and site displacements. Various options for the initial charge density distribution are considered. Long-term calculations show that the system moves to fluctuations near a new equilibrium state. For the same initial velocities and displacements, the average kinetic energy, and, accordingly, the temperature of the T chain, varies depending on the initial distribution of the charge density: it decreases when a polaron is introduced into the chain, or increases if at the initial moment the electronic part of the energy is maximum. A comparison is made with the results obtained previously in the model with a Langevin thermostat. In both cases, the existence of a polaron is determined by the thermal energy of the entire chain.

    According to the simulation results, the transition from the polaron mode to the delocalized state occurs in the same range of thermal energy values of a chain of $N$ sites ~ $NT$ for both thermostat options, with an additional adjustment: for the Hamiltonian system the temperature does not correspond to the initially set one, but is determined after long-term calculations from the average kinetic energy of the chain.

    In the polaron region, the use of different methods for simulating temperature leads to a number of significant differences in the dynamics of the system. In the region of the delocalized state of charge, for high temperatures, the results averaged over a set of trajectories in a system with a random force and the results averaged over time for a Hamiltonian system are close, which does not contradict the ergodic hypothesis. From a practical point of view, for large temperatures T ≈ 300 K, when simulating charge transfer in homogeneous chains, any of these options for setting the thermostat can be used.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.