Текущий выпуск Номер 2, 2024 Том 16

Все выпуски

Результаты поиска по 'reinforcement':
Найдено статей: 16
  1. Руденко В.Д., Юдин Н.Е., Васин А.А.
    Обзор выпуклой оптимизации марковских процессов принятия решений
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353

    В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

    Rudenko V.D., Yudin N.E., Vasin A.A.
    Survey of convex optimization of Markov decision processes
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353

    This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.

  2. В статье приведен пример конечно-элементного моделирования структурного элемента гибких тканых композитов. Армирующей тканью является полотняное переплетение нитей из трощеного жгута. Нити представляются упругим материалом. Матрицей рассматриваемого материала является мягкий полимер с возможностью возникновения необратимых деформаций. Учтена возможность возникновения повреждений в структуре материала при высоких нагрузках. Построена полная диаграмма деформирования при одноосном растяжении. Достоверность модели подтверждается проведенными натурными экспериментами.

    Lyubimov A.K., Kozhanov D.A.
    Modeling the structural element of flexible woven composites under static tension using the method of finite element in ANSYS
    Computer Research and Modeling, 2016, v. 8, no. 1, pp. 113-120

    The article gives the example of finite-element modeling of the structural element is a flexible woven composites. The reinforcing cloth is a plain weave of threads of assembled harness. Threads are represented by elastic material. The matrix of the material is a soft polymer with the possibility of irreversible deformations. Taken into account the possibility of the occurrence of damage in the structure of the material under high loads. Built detailed diagram of deformation under uniaxial tension. The accuracy of the model is conrmed by in situ experiments.

    Просмотров за год: 1. Цитирований: 7 (РИНЦ).
  3. Аксёнов А.А., Жлуктов С.В., Каширин В.С., Сазонова М.Л., Черный С.Г., Дроздова Е.А., Роде А.А.
    Численное моделирование в ПК FlowVision распыла и испарения сырья в потоке газа-теплоносителя при печном производстве технического углерода
    Компьютерные исследования и моделирование, 2023, т. 15, № 4, с. 921-939

    Технический углерод (сажа) — продукт, получаемый термическим разложением (пиролизом) углеводородов (как правило, нефти) в потоке газа-теплоносителя. Технический углерод широко применяется в качестве усиливающего компонента в производстве резин и пластических масс. В производстве шин используется 70% всего выпускаемого углерода. При печном производстве углерода жидкое углеводородное сырье впрыскивается форсунками в поток продуктов сгорания природного газа. Происходит распыл и испарение сырья с дальнейшим пиролизом. Важно, чтобы сырье полностью испарилось до начала пиролиза, иначе будет образовываться кокс, загрязняющий продукт. Для совершенствования технологии производства углерода, в частности обеспечения полного испарения сырья до начала пиролиза, невозможно обойтись без математического моделирования самого процесса. Оно является важнейшим способом получения наиболее полной и детальной информации об особенностях работы реактора.

    В программном комплексе (ПК) FlowVision разрабатываются трехмерная математическая модель и метод расчета распыла и испарения сырья в потоке газа-теплоносителя. Для отработки методики моделирования в качестве сырья выбрана вода. Рабочими веществами в камере реактора являются продукты сгорания природного газа. Движение капель сырья и испарение в потоке газа моделируются в рамках эйлерова подхода взаимодействия дисперсной и сплошной сред. Представлены результаты расчета распыла и испарения сырья в реакторе для производства технического углерода. По найденному в каждый момент времени распределению множества капель распыла сырья в реакторе определяется важный параметр, характеризующий мелкость распыла — средний саутеровский диаметр.

    Aksenov A.A., Zhluktov S.V., Kashirin V.S., Sazonova M.L., Cherny S.G., Drozdova E.A., Rode A.A.
    Numerical modeling of raw atomization and vaporization by flow of heat carrier gas in furnace technical carbon production into FlowVision
    Computer Research and Modeling, 2023, v. 15, no. 4, pp. 921-939

    Technical carbon (soot) is a product obtained by thermal decomposition (pyrolysis) of hydrocarbons (usually oil) in a stream of heat carrier gas. Technical carbon is widely used as a reinforcing component in the production of rubber and plastic masses. Tire production uses 70% of all carbon produced. In furnace carbon production, the liquid hydrocarbon feedstock is injected into the natural gas combustion product stream through nozzles. The raw material is atomized and vaporized with further pyrolysis. It is important for the raw material to be completely evaporated before the pyrolysis process starts, otherwise coke, that contaminates the product, will be produced. It is impossible to operate without mathematical modeling of the process itself in order to improve the carbon production technology, in particular, to provide the complete evaporation of the raw material prior to the pyrolysis process. Mathematical modelling is the most important way to obtain the most complete and detailed information about the peculiarities of reactor operation.

    A three-dimensional mathematical model and calculation method for raw material atomization and evaporation in the thermal gas flow are being developed in the FlowVision software package PC. Water is selected as a raw material to work out the modeling technique. The working substances in the reactor chamber are the combustion products of natural gas. The motion of raw material droplets and evaporation in the gas stream are modeled in the framework of the Eulerian approach of interaction between dispersed and continuous media. The simulation results of raw materials atomization and evaporation in a real reactor for technical carbon production are presented. Numerical method allows to determine an important atomization characteristic: average Sauter diameter. That parameter could be defined from distribution of droplets of raw material at each time of spray forming.

  4. Саленек И.А., Селиверстов Я.А., Селиверстов С.А., Софронова Е.А.
    Повышение качества генерации маршрутов в SUMO на основе данных с детекторов с использованием обучения с подкреплением
    Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 137-146

    Данная работа предлагает новый подход к построению высокоточных маршрутов на основе данных от транспортных детекторов в пакете моделирования трафика SUMO. Существующие инструменты, такие как flowrouter и routeSampler, имеют ряд недостатков, таких как отсутствие взаимодействия с сетью в процессе построения маршрутов. Наш rlRouter использует мультиагентное обучение с подкреплением (MARL), где агенты — это входящие полосы движения, а окружающая среда — дорожная сеть. Добавляя в сеть транспортные средства с определенными маршрутами, агенты получают вознаграждение за сопоставление данных с детекторами транспорта. В качестве алгоритма мультиагентного обучения с подкреплением использовался DQN с разделением параметров между агентами и LSTM-слоем для обработки последовательных данных.

    Поскольку rlRouter обучается внутри симуляции SUMO, он может лучше восстанавливать маршруты, принимая во внимание взаимодействие транспортных средств внутри сети друг с другом и с сетевой инфраструктурой. Мы смоделировали различные дорожные ситуации на трех разных перекрестках, чтобы сравнить производительность маршрутизаторов SUMO с rlRouter. Мы использовали среднюю абсолютную ошибку (MAE) в качестве меры отклонения кумулятивных данных детекторов и от данных маршрутов. rlRouter позволил добиться высокого соответствия данным с детекторов. Мы также обнаружили, что, максимизируя вознаграждение за соответствие детекторам, результирующие маршруты также становятся ближе к реальным. Несмотря на то, что маршруты, восстановленные с помощью rlRouter, превосходят маршруты, полученные с помощью инструментов SUMO, они не полностью соответствуют реальным из-за естественных ограничений петлевых детекторов. Чтобы обеспечить более правдоподобные маршруты, необходимо оборудовать перекрестки другими видами транспортных счетчиков, например, детекторами-камерами.

    Salenek I.A., Seliverstov Y.A., Seliverstov S.A., Sofronova E.A.
    Improving the quality of route generation in SUMO based on data from detectors using reinforcement learning
    Computer Research and Modeling, 2024, v. 16, no. 1, pp. 137-146

    This work provides a new approach for constructing high-precision routes based on data from transport detectors inside the SUMO traffic modeling package. Existing tools such as flowrouter and routeSampler have a number of disadvantages, such as the lack of interaction with the network in the process of building routes. Our rlRouter uses multi-agent reinforcement learning (MARL), where the agents are incoming lanes and the environment is the road network. By performing actions to launch vehicles, agents receive a reward for matching data from transport detectors. Parameter Sharing DQN with the LSTM backbone of the Q-function was used as an algorithm for multi-agent reinforcement learning.

    Since the rlRouter is trained inside the SUMO simulation, it can restore routes better by taking into account the interaction of vehicles within the network with each other and with the network infrastructure. We have modeled diverse traffic situations on three different junctions in order to compare the performance of SUMO’s routers with the rlRouter. We used Mean Absoluter Error (MAE) as the measure of the deviation from both cumulative detectors and routes data. The rlRouter achieved the highest compliance with the data from the detectors. We also found that by maximizing the reward for matching detectors, the resulting routes also get closer to the real ones. Despite the fact that the routes recovered using rlRouter are superior to the routes obtained using SUMO tools, they do not fully correspond to the real ones, due to the natural limitations of induction-loop detectors. To achieve more plausible routes, it is necessary to equip junctions with other types of transport counters, for example, camera detectors.

  5. Чэнь Ц., Лобанов А.В., Рогозин А.В.
    Решение негладких распределенных минимаксных задач с применением техники сглаживания
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 469-480

    Распределенные седловые задачи имеют множество различных приложений в оптимизации, теории игр и машинном обучении. Например, обучение генеративных состязательных сетей может быть представлено как минимаксная задача, а также задача обучения линейных моделей с регуляризатором может быть переписана как задача поиска седловой точки. В данной статье исследуются распределенные негладкие седловые задачи с липшицевыми целевыми функциями (возможно, недифференцируемыми). Целевая функция представляется в виде суммы нескольких слагаемых, распределенных между группой вычислительных узлов. Каждый узел имеет доступ к локально хранимой функции. Узлы, или агенты, обмениваются информацией через некоторую коммуникационную сеть, которая может быть централизованной или децентрализованной. В централизованной сети есть универсальный агрегатор информации (сервер или центральный узел), который напрямую взаимодействует с каждым из агентов и, следовательно, может координировать процесс оптимизации. В децентрализованной сети все узлы равноправны, серверный узел отсутствует, и каждый агент может общаться только со своими непосредственными соседями.

    Мы предполагаем, что каждый из узлов локально хранит свою целевую функцию и может вычислить ее значение в заданных точках, т. е. имеет доступ к оракулу нулевого порядка. Информация нулевого порядка используется, когда градиент функции является трудно вычислимым, а также когда его невозможно вычислить или когда функция не дифференцируема. Например, в задачах обучения с подкреплением необходимо сгенерировать траекторию для оценки текущей стратегии. Этот процесс генерирования траектории и оценки политики можно интерпретировать как вычисление значения функции. Мы предлагаем подход, использующий технику сглаживания, т. е. применяющий метод первого порядка к сглаженной версии исходной функции. Можно показать, что стохастический градиент сглаженной функции можно рассматривать как случайную двухточечную аппроксимацию градиента исходной функции. Подходы, основанные на сглаживании, были изучены для распределенной минимизации нулевого порядка, и наша статья обобщает метод сглаживания целевой функции на седловые задачи.

    Chen J., Lobanov A.V., Rogozin A.V.
    Nonsmooth Distributed Min-Max Optimization Using the Smoothing Technique
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 469-480

    Distributed saddle point problems (SPPs) have numerous applications in optimization, matrix games and machine learning. For example, the training of generated adversarial networks is represented as a min-max optimization problem, and training regularized linear models can be reformulated as an SPP as well. This paper studies distributed nonsmooth SPPs with Lipschitz-continuous objective functions. The objective function is represented as a sum of several components that are distributed between groups of computational nodes. The nodes, or agents, exchange information through some communication network that may be centralized or decentralized. A centralized network has a universal information aggregator (a server, or master node) that directly communicates to each of the agents and therefore can coordinate the optimization process. In a decentralized network, all the nodes are equal, the server node is not present, and each agent only communicates to its immediate neighbors.

    We assume that each of the nodes locally holds its objective and can compute its value at given points, i. e. has access to zero-order oracle. Zero-order information is used when the gradient of the function is costly, not possible to compute or when the function is not differentiable. For example, in reinforcement learning one needs to generate a trajectory to evaluate the current policy. This policy evaluation process can be interpreted as the computation of the function value. We propose an approach that uses a smoothing technique, i. e., applies a first-order method to the smoothed version of the initial function. It can be shown that the stochastic gradient of the smoothed function can be viewed as a random two-point gradient approximation of the initial function. Smoothing approaches have been studied for distributed zero-order minimization, and our paper generalizes the smoothing technique on SPPs.

  6. Чувилин К.В.
    Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883

    Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.

    Chuvilin K.V.
    The use of syntax trees in order to automate the correction of LaTeX documents
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 871-883

    The problem is to automate the correction of LaTeX documents. Each document is represented as a parse tree. The modified Zhang-Shasha algorithm is used to construct a mapping of tree vertices of the original document to the tree vertices of the edited document, which corresponds to the minimum editing distance. Vertex to vertex maps form the training set, which is used to generate rules for automatic correction. The statistics of the applicability to the edited documents is collected for each rule. It is used for quality assessment and improvement of the rules.

    Цитирований: 5 (РИНЦ).
Страницы: предыдущая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.