Текущий выпуск Номер 2, 2024 Том 16

Все выпуски

Результаты поиска по 'networks':
Найдено статей: 109
  1. Востриков Д.Д., Конин Г.О., Лобанов А.В., Матюхин В.В.
    Влияние конечности мантиссы на точность безградиентных методов оптимизации
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 259-280

    Безградиентные методы оптимизации, или методы нулевого порядка, широко применяются в обучении нейронных сетей, обучении с подкреплением, а также в промышленных задачах, где доступны лишь значения функции в точке (работа с неаналитическими функциями). В частности, метод обратного распространения ошибки в PyTorch работает именно по этому принципу. Существует общеизвестный факт, что при компьютерных вычислениях используется эвристика чисел с плавающей точкой, и из-за этого возникает проблема конечности мантиссы.

    В этой работе мы, во-первых, сделали обзор наиболее популярных методов аппроксимации градиента: конечная прямая/центральная разность (FFD/FCD), покомпонентная прямая/центральная разность (FWC/CWC), прямая/центральная рандомизация на $l_2$ сфере (FSSG2/CFFG2); во-вторых, мы описали текущие теоретические представления шума, вносимого неточностью вычисления функции в точке: враждебный шум, случайный шум; в-третьих, мы провели серию экспериментов на часто встречающихся классах задач, таких как квадратичная задача, логистическая регрессия, SVM, чтобы попытаться определить, соответствует ли реальная природа машинного шума существующей теории. Оказалось, что в реальности (по крайней мере на тех классах задач, которые были рассмотрены в данной работе) машинный шум оказался чем-то средним между враждебным шумом и случайным, в связи с чем текущая теория о влиянии конечности мантиссы на поиск оптимума в задачах безградиентной оптимизации требует некоторой корректировки.

    Vostrikov D.D., Konin G.O., Lobanov A.V., Matyukhin V.V.
    Influence of the mantissa finiteness on the accuracy of gradient-free optimization methods
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 259-280

    Gradient-free optimization methods or zeroth-order methods are widely used in training neural networks, reinforcement learning, as well as in industrial tasks where only the values of a function at a point are available (working with non-analytical functions). In particular, the method of error back propagation in PyTorch works exactly on this principle. There is a well-known fact that computer calculations use heuristics of floating-point numbers, and because of this, the problem of finiteness of the mantissa arises.

    In this paper, firstly, we reviewed the most popular methods of gradient approximation: Finite forward/central difference (FFD/FCD), Forward/Central wise component (FWC/CWC), Forward/Central randomization on $l_2$ sphere (FSSG2/CFFG2); secondly, we described current theoretical representations of the noise introduced by the inaccuracy of calculating the function at a point: adversarial noise, random noise; thirdly, we conducted a series of experiments on frequently encountered classes of problems, such as quadratic problem, logistic regression, SVM, to try to determine whether the real nature of machine noise corresponds to the existing theory. It turned out that in reality (at least for those classes of problems that were considered in this paper), machine noise turned out to be something between adversarial noise and random, and therefore the current theory about the influence of the mantissa limb on the search for the optimum in gradient-free optimization problems requires some adjustment.

  2. Дорн Ю.В., Шитиков О.М.
    Идентификация парадокса Браесса в модели стабильной динамики
    Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 35-51

    В работе исследуется поиск неэффективных ребер в модели стабильной динамики Нестрова–де Пальмы (2003). Для этой цели мы доказываем несколько общих теорем о свойствах равновесия, в том числе о том, что условие равенства стоимостей для всех используемых маршрутов может быть распространено на все пути, задействующие ребра из равновесных маршрутов. В работе показывается, что стандартная постановка задачи о поиске ребер, удаление которых приводит к уменьшению стоимости проезда для всех участников, не имеет практического смысла, так как одно и то же ребро может быть как эффективным, так и неэффективным (в зависимости от загрузки сети). В работе мы вводим понятие неэффективного ребра, опираясь на чувствительность суммарных издержек водителей к издержкам на ребре. В работе приводятся алгоритм поиска неэффективных ребер и результаты численных экспериментов для транспортной сети города Анахайм.

    Dorn Y.V., Shitikov O.M.
    Detecting Braess paradox in the stable dynamic model
    Computer Research and Modeling, 2024, v. 16, no. 1, pp. 35-51

    The work investigates the search for inefficient edges in the model of stable dynamics by Nestrov – de Palma (2003). For this purpose, we prove several general theorems about equilibrium properties, including the condition of equal costs for all used routes that can be extended to all paths involving edges from equilibrium routes. The study demonstrates that the standard problem formulation of finding edges whose removal reduces the cost of travel for all participants has no practical significance because the same edge can be both efficient and inefficient depending on the network’s load. In the work, we introduce the concept of an inefficient edge based on the sensitivity of total driver costs to the costs on the edge. The paper provides an algorithm for finding inefficient edges and presents the results of numerical experiments for the transportation network of the city of Anaheim.

  3. Губанов С.М., Крайнов А.Ю.
    Численное моделирование охлаждения емкостей для десублимации паров
    Компьютерные исследования и моделирование, 2011, т. 3, № 4, с. 383-388

    Представлена математическая модель для расчета охлаждения емкостей для десублимации паров охлажденным воздухом, подаваемым к ним по сети трубопроводов. Приведены результаты расчетов процесса охлаждения двух приемных емкостей в блоке из четырех. Представлена картина течения охлаждающего воздуха в сети трубопроводов.

    Gubanov S.M., Krainov A.Y.
    Numerical simulation of cooling tanks for vapor desublimation processes
    Computer Research and Modeling, 2011, v. 3, no. 4, pp. 383-388

    The paper presents a mathematical model to be used for design of cooling tanks for vapor desublimation. Results of calculations for the process of cooling of two tanks in a block of four are presented. Chart of the cooling air flow in the piping network is presented.

    Просмотров за год: 2. Цитирований: 6 (РИНЦ).
  4. Калинин И.Н., Глухарев К.К.
    Исследование интегральных характеристик перекрестков при помощи микроскопических моделей транспортных потоков
    Компьютерные исследования и моделирование, 2014, т. 6, № 4, с. 523-534

    Рассматривается проблема применимости микроскопического моделирования транспортных потоков к анализу достаточно больших фрагментов сетей на примере модели дискретного потока с безопасной дистанцией. Вводится понятие интегральных характеристик перекрестков и предлагается методика получения интегральных характеристик на основе данных численных экспериментов по моделированию потоков на заданном перекрестке. Методика применяется к кольцевому коммутатору с Т-образными перекрестками, анализируются полученные характеристики.

    Kalinin I.N., Glukharev K.K.
    Interchange integral characteristics study via microscopic traffic flow models
    Computer Research and Modeling, 2014, v. 6, no. 4, pp. 523-534

    The problem of application of miscroscopic traffic models for the analysis of large network segments is discussed with an example of discrete flow with safe distance. A concept of integral charasteristics of network segments is introduced, a method for obtaining such characteristics via microscopic traffic flow models is presented. Said method is applied to a circular unidirectional interchange, obtained characteristics analysed.

    Просмотров за год: 4. Цитирований: 7 (РИНЦ).
  5. Дударов С.П., Диев А.Н., Федосова Н.А., Кольцова Э.М.
    Моделирование свойств конструкционного композитного материала, армированного углеродными нанотрубками, с использованием перцептронных комплексов
    Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 253-262

    Использование алгоритмов, основанных на нейронных сетях, может оказаться неэффективным при малых объемах экспериментальных данных. Авторы статьи рассматривают решение данной проблемы на примере моделирования свойств керамического композита, армированного углеродными нанотрубками, с помощью перцептронного комплекса. Такой подход позволил получить математическое описание объекта исследования при минимальном объеме и неполноте исходной информации, полученной в ходе экспериментов (объем необходимой экспериментальной выборки уменьшился в 2–3.3 раза). В статье рассмотрены различные варианты структур перцептронных комплексов. Выявлено, что наиболее подходящей структурой обладает перцептронный комплекс с проскоком двух входных переменных. Относительная ошибка составила всего 6%. Выбранный перцептронный комплекс показал свою эффективность для предсказания свойств керамического композита. Относительные ошибки по выходным компонентам составили 0.3%, 4.2%, 0.4%, 2.9% и 11.8%.

    Dudarov S.P., Diev A.N., Fedosova N.A., Koltsova E.M.
    Simulation of properties of composite materials reinforced by carbon nanotubes using perceptron complexes
    Computer Research and Modeling, 2015, v. 7, no. 2, pp. 253-262

    Use of algorithms based on neural networks can be inefficient for small amounts of experimental data. Authors consider a solution of this problem in the context of modelling of properties of ceramic composite materials reinforced with carbon nanotubes using perceptron complex. This approach allowed us to obtain a mathematical description of the object of study with a minimal amount of input data (the amount of necessary experimental samples decreased 2–3.3 times). Authors considered different versions of perceptron complex structures. They found that the most appropriate structure has perceptron complex with breakthrough of two input variables. The relative error was only 6%. The selected perceptron complex was shown to be effective for predicting the properties of ceramic composites. The relative errors for output components were 0.3%, 4.2%, 0.4%, 2.9%, and 11.8%.

    Просмотров за год: 2. Цитирований: 1 (РИНЦ).
  6. Хоружников С.Э., Грудинин В.А., Садов О.Л., Шевель А.Е., Каирканов А.Б.
    Предварительное изучение передачи больших данных по компьютерной сети
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 421-427

    Передача больших данных по компьютерной сети — это важная и неотъемлемая операция в прошлом, настоящем и в любом обозримом будущем. Существует несколько методов передачи данных по глобальной компьютерной сети (Интернет) с помощью ряда инструментов. В этой статье рассматривается передача данных из одной точки Интернета в другую точку Интернета в основном на большие расстояния: многие тысячи километров. В статье представлен анализ нескольких бесплатных систем передачи больших данных. Подчеркиваются наиболее важные архитектурные особенности и предлагается идея использования технологии ПКС на базе протокола Openflow для улучшения процесса передачи данных по нескольким параллельным каналам связи.

    Khoruzhnikov S.E., Grudinin V.A., Sadov O.L., Shevel A.Y., Kairkanov A.B.
    Preliminary study of big data transfer over computer network
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 421-427

    The transfer of Big Data over computer network is important and unavoidable operation in the past, now and in any feasible future. There are a number of methods to transfer the data over computer global network (Internet) with a range of tools. In this paper the transfer of one piece of Big Data from one point in the Internet to another point in Internet in general over long range distance: many thousands kilometers. Several free of charge systems to transfer the Big Data are analyzed here. The most important architecture features are emphasized and suggested idea to add SDN Openflow protocol technique for fine tuning the data transfer over several parallel data links.

    Просмотров за год: 4.
  7. Евин И.А., Комаров В.В., Попова М.С., Марченко Д.К., Самсонова А.Ю.
    Дорожные сети городов
    Компьютерные исследования и моделирование, 2016, т. 8, № 5, с. 775-786

    Улично-дорожная сеть является основой инфраструктуры любой урбанистической территории. В данной статье сравниваются структурные характеристики (коэффициент сетчатости, коэффициент кластеризации) дорожных сетей центра Москвы (старая Москва), сформированных в результате самоорганизации, и сети дорог вблизи Ленинского проспекта (послевоенная Москва), которая формировалась в процессе централизованного планирования. Данные для построения дорожных сетей в виде первичных графов взяты из интернет-ресурса OpenStreetMap, позволяющего точно идентифицировать координаты перекрестков. По вычисленным характеристикам в зарубежных публикациях найдены города, дорожные сети которых имеют сходные с этими двумя районами Москвы структуры. С учетом двойственного представления дорожных сетей центров Москвы и Петербурга, изучались информационно-когнитивные свойства навигации по этим туристическим районам двух столиц. При построении двойственного графа исследуемых районов не принимались во внимание различия в типах дорог (одностороннее или двусторонне движение и т. п.). То есть построенные двойственные графы являются неориентированным. Поскольку дорожные сети в двойственном представлении описываются степенным законом распределения вершин по числу ребер (являются безмасштабными сетями), вычислены показатели степеней этих распределений. Показано, что информационная сложность двойственного графа центра Москвы превышает когнитивный порог в 8.1 бит, а этот же показатель для центра Петербурга ниже этого порога. Это объясняется тем, что дорожная сеть центра Петербурга создавалась на основе планирования и потому более проста для навигации. В заключение, с использованием методов статистической механики (метод расчета статистических сумм) для дорожных сетей некоторых российских городов, вычислялась энтропия Гиббса. Обнаружено, что с ростом размеров дорожных сетей их энтропия уменьшается. Обсуждаются задачи изучения эволюции сетей городской инфраструктуры различной природы (сети общественного транспорта, снабжения, коммуникации и т. д.), что позволит более глубоко исследовать и понять фундаментальные закономерности процесса урбанизации.

    Yevin I.A., Komarov V.V., Popova M.S., Marchenko D.K., Samsonova A.J.
    Cities road networks
    Computer Research and Modeling, 2016, v. 8, no. 5, pp. 775-786

    Road network infrastructure is the basis of any urban area. This article compares the structural characteristics (meshedness coefficient, clustering coefficient) road networks of Moscow center (Old Moscow), formed as a result of self-organization and roads near Leninsky Prospekt (postwar Moscow), which was result of cetralized planning. Data for the construction of road networks in the form of graphs taken from the Internet resource OpenStreetMap, allowing to accurately identify the coordinates of the intersections. According to the characteristics of the calculated Moscow road networks areas the cities with road network which have a similar structure to the two Moscow areas was found in foreign publications. Using the dual representation of road networks of centers of Moscow and St. Petersburg, studied the information and cognitive features of navigation in these tourist areas of the two capitals. In the construction of the dual graph of the studied areas were not taken into account the different types of roads (unidirectional or bi-directional traffic, etc), that is built dual graphs are undirected. Since the road network in the dual representation are described by a power law distribution of vertices on the number of edges (scale-free networks), exponents of these distributions were calculated. It is shown that the information complexity of the dual graph of the center of Moscow exceeds the cognitive threshold 8.1 bits, and the same feature for the center of St. Petersburg below this threshold, because the center of St. Petersburg road network was created on the basis of planning and therefore more easy to navigate. In conclusion, using the methods of statistical mechanics (the method of calculating the partition functions) for the road network of some Russian cities the Gibbs entropy were calculated. It was found that with the road network size increasing their entropy decreases. We discuss the problem of studying the evolution of urban infrastructure networks of different nature (public transport, supply , communication networks, etc.), which allow us to more deeply explore and understand the fundamental laws of urbanization.

    Просмотров за год: 3.
  8. Емалетдинова Л.Ю., Мухаметзянов З.И., Катасёва Д.В., Кабирова А.Н.
    Метод построения прогнозной нейросетевой модели временного ряда
    Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 737-756

    В данной статье рассматривается метод построения прогнозной нейросетевой модели временного ряда, основанный на определении состава входных переменных, построения обучающей выборки и самого обучения с использованием метода обратного распространения ошибки. Традиционные методы построения прогнозных моделей временного ряда (авторегрессионной модели, модели скользящего среднего или модели авторегрессии – скользящего среднего) позволяют аппроксимировать временной ряд линейной зависимостью текущего значения выходной переменной от некоторого количества ее предыдущих значений. Такое ограничение, как линейность зависимости, приводит к значительным ошибкам при прогнозировании.

    Технологии интеллектуального анализа с применением нейросетевого моделирования позволяют аппроксимировать временной ряд нелинейной зависимостью. Причем процесс построения нейросетевой модели (определение состава входных переменных, числа слоев и количества нейронов в слоях, выбор функций активации нейронов, определение оптимальных значений весов связей нейронов) позволяет получить прогнозную модель в виде аналитической нелинейной зависимости.

    Одним из ключевых моментов при построении нейросетевых моделей в различных прикладных областях, влияющих на ее адекватность, является определение состава ее входных переменных. Состав входных переменных традиционно выбирается из некоторых физических соображений или методом подбора. Для задачи определения состава входных переменных прогнозной нейросетевой модели временного ряда предлагается использовать особенности поведения автокорреляционной и частной автокорреляционной функций.

    В работе предлагается метод определения состава входных переменных нейросетевых моделей для стационарных и нестационарных временных рядов, базирующийся на построении и анализе автокорреляционных функций. На основе предложенного метода разработаны алгоритм и программа в среде программирования Python, определяющая состав входных переменных прогнозной нейросетевой модели — персептрона, а также строящая саму модель. Осуществлена экспериментальная апробация предложенного метода на примере построения прогнозной нейросетевой модели временного ряда, отражающего потребление электроэнергии в разных регионах США, открыто опубликованной компанией PJM Interconnection LLC (PJM) — региональной сетевой организацией в Соединенных Штатах. Данный временной ряд является нестационарным и характеризуется наличием как тренда, так и сезонности. Прогнозирование очередных значений временного ряда на ос- нове предыдущих значений и построенной нейросетевой модели показало высокую точность аппроксимации, что доказывает эффективность предлагаемого метода.

    Emaletdinova L.Y., Mukhametzyanov Z.I., Kataseva D.V., Kabirova A.N.
    A method of constructing a predictive neural network model of a time series
    Computer Research and Modeling, 2020, v. 12, no. 4, pp. 737-756

    This article studies a method of constructing a predictive neural network model of a time series based on determining the composition of input variables, constructing a training sample and training itself using the back propagation method. Traditional methods of constructing predictive models of the time series are: the autoregressive model, the moving average model or the autoregressive model — the moving average allows us to approximate the time series by a linear dependence of the current value of the output variable on a number of its previous values. Such a limitation as linearity of dependence leads to significant errors in forecasting.

    Mining Technologies using neural network modeling make it possible to approximate the time series by a nonlinear dependence. Moreover, the process of constructing of a neural network model (determining the composition of input variables, the number of layers and the number of neurons in the layers, choosing the activation functions of neurons, determining the optimal values of the neuron link weights) allows us to obtain a predictive model in the form of an analytical nonlinear dependence.

    The determination of the composition of input variables of neural network models is one of the key points in the construction of neural network models in various application areas that affect its adequacy. The composition of the input variables is traditionally selected from some physical considerations or by the selection method. In this work it is proposed to use the behavior of the autocorrelation and private autocorrelation functions for the task of determining the composition of the input variables of the predictive neural network model of the time series.

    In this work is proposed a method for determining the composition of input variables of neural network models for stationary and non-stationary time series, based on the construction and analysis of autocorrelation functions. Based on the proposed method in the Python programming environment are developed an algorithm and a program, determining the composition of the input variables of the predictive neural network model — the perceptron, as well as building the model itself. The proposed method was experimentally tested using the example of constructing a predictive neural network model of a time series that reflects energy consumption in different regions of the United States, openly published by PJM Interconnection LLC (PJM) — a regional network organization in the United States. This time series is non-stationary and is characterized by the presence of both a trend and seasonality. Prediction of the next values of the time series based on previous values and the constructed neural network model showed high approximation accuracy, which proves the effectiveness of the proposed method.

  9. Быков Н.В.
    Моделирование кластерного движения беспилотных транспортных средств в гетерогенном транспортном потоке
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1041-1058

    Одной из особенностей беспилотных автомобильных транспортных средств является их способность к организованному движению в форме кластеров: последовательности движущихся с единой скоростью транспортных средств. Влияние образования и движения этих кластеров на динамику транспортных потоков представляет большой интерес. В настоящей работе предложена качественная имитационная модель кластерного движения беспилотных транспортных средств в гетерогенной транспортной системе, состоящей из двух типов агентов (транспортных средств): управляемых человеком и беспилотных. В основу описания временной эволюции системы положены правила 184 и 240 для элементарных клеточных автоматов. Управляемые человеком транспортные средства перемещаются по правилу 184 с добавлением случайного торможения, вероятность которого зависит от расстояния до находящегося впереди транспортного средства. Для беспилотных транспортных средств используется комбинация правил, в том числе в зависимости от типа ближайших соседей, в некоторых случаях независимо от расстояния до них, что привносит в модель нелокальное взаимодействие. При этом учтено, что группа последовательно движущихся беспилотных транспортных средств может сформировать организованный кластер. Исследовано влияние соотношения типов транспортных средств в системе на характеристики транспортного потока при свободномд вижении на круговой однополосной и двухполосной дорогах, а также при наличии светофора. Результаты моделирования показали, что эффект образования кластеров имеет существенное влияние при свободномдвиж ении, а наличие светофора снижает положительный эффект приблизительно вдвое. Также исследовано движение кластеров из беспилотных автомобилей на двухполосных дорогах с возможностью перестроения. Показано, что учет при перестроении беспилотными транспортными средствами типов соседних транспортных средств (беспилотное или управляемое человеком) положительно влияет на характеристики транспортного потока.

    Bykov N.V.
    A simulation model of connected automated vehicles platoon dynamics in a heterogeneous traffic flow
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1041-1058

    The gradual incorporation of automated vehicles into the global transport networks leads to the need to develop tools to assess the impact of this process on various aspects of traffic. This implies a more organized movement of automated vehicles which can form uniformly moving platoons. The influence of the formation and movement of these platoons on the dynamics of traffic flow is of great interest. The currently most developed traffic flow models are based on the cellular automaton approach. They are mainly developed in the direction of increasing accuracy. This inevitably leads to the complication of models, which in their modern form have significantly moved away from the original philosophy of cellular automata, which implies simplicity and schematicity of models at the level of evolution rules, leading, however, to a complex organized behavior of the system. In the present paper, a simulation model of connected automated vehicles platoon dynamics in a heterogeneous transport system is proposed, consisting of two types of agents (vehicles): human-driven and automated. The description of the temporal evolution of the system is based on modified rules 184 and 240 for elementary cellular automata. Human-driven vehicles move according to rule 184 with the addition of accidental braking, the probability of which depends on the distance to the vehicle in front. For automated vehicles, a combination of rules is used depending on the type of nearest neighbors, regardless of the distance to them, which brings non-local interaction to the model. At the same time, it is considered that a group of sequentially moving connected automated vehicles can form an organized platoon. The influence of the ratio of types of vehicles in the system on the characteristics of the traffic flow during free movement on a circular one-lane and two-lane roads, as well as in the presence of a traffic light, is studied. The simulation results show that the effect of platoon formation is significant for a freeway traffic flow; the presence of a traffic light reduces the positive effect by about half. The movement of platoons of connected automated vehicles on two-lane roads with the possibility of lane changing was also studied. It is shown that considering the types of neighboring vehicles (automated or human-driven) when changing lanes for automated vehicles has a positive effect on the characteristics of the traffic flow.

  10. В данной работе представлены результаты экспериментальной проверки некоторых вопросов, касающихся практического использования методов преодоления катастрофической забывчивости нейронных сетей. Проведено сравнение двух таких современных методов: метода эластичного закрепления весов (EWC, Elastic Weight Consolidation) и метода ослабления скоростей весов (WVA, Weight Velocity Attenuation). Разобраныих преимущества и недостатки в сравнении друг с другом. Показано, что метод эластичного закрепления весов (EWC) лучше применять в задачах, где требуется полностью сохранять выученные навыки на всех задачах в очереди обучения, а метод ослабления скоростей весов (WVA) больше подходит для задач последовательного обучения с сильно ограниченными вычислительными ресурсами или же когда требуется не точное сохранение всех навыков, а переиспользование репрезентаций и ускорение обучения от задачи к задаче. Проверено и подтверждено интуитивное предположение, что ослабление метода WVA необходимо применять к оптимизационному шагу, то есть к приращениям весов нейронной сети, а не к самому градиенту функции потерь, и это справедливо для любого градиентного оптимизационного метода, кроме простейшего стохастического градиентного спуска (SGD), для которого оптимизационный шаг и градиент функции потерь пропорциональны. Рассмотрен выбор оптимальной функции ослабления скоростей весов между гиперболической функцией и экспонентой. Показано, что гиперболическое убывание более предпочтительно, так как, несмотря на сравнимое качество при оптимальных значениях гиперпараметра метода WVA, оно более устойчиво к отклонениям гиперпараметра от оптимального значения (данный гиперпараметр в методе WVA обеспечивает баланс между сохранением старых навыков и обучением новой задаче). Приведены эмпирические наблюдения, которые подтверждают гипотезу о том, что оптимальное значение гиперпараметра не зависит от числа задач в очереди последовательного обучения. Следовательно, данный гиперпараметр может подбираться на небольшом числе задач, а использоваться — на более длинных последовательностях.

    Kutalev A.A., Lapina A.A.
    Modern ways to overcome neural networks catastrophic forgetting and empirical investigations on their structural issues
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 45-56

    This paper presents the results of experimental validation of some structural issues concerning the practical use of methods to overcome catastrophic forgetting of neural networks. A comparison of current effective methods like EWC (Elastic Weight Consolidation) and WVA (Weight Velocity Attenuation) is made and their advantages and disadvantages are considered. It is shown that EWC is better for tasks where full retention of learned skills is required on all the tasks in the training queue, while WVA is more suitable for sequential tasks with very limited computational resources, or when reuse of representations and acceleration of learning from task to task is required rather than exact retention of the skills. The attenuation of the WVA method must be applied to the optimization step, i. e. to the increments of neural network weights, rather than to the loss function gradient itself, and this is true for any gradient optimization method except the simplest stochastic gradient descent (SGD). The choice of the optimal weights attenuation function between the hyperbolic function and the exponent is considered. It is shown that hyperbolic attenuation is preferable because, despite comparable quality at optimal values of the hyperparameter of the WVA method, it is more robust to hyperparameter deviations from the optimal value (this hyperparameter in the WVA method provides a balance between preservation of old skills and learning a new skill). Empirical observations are presented that support the hypothesis that the optimal value of this hyperparameter does not depend on the number of tasks in the sequential learning queue. And, consequently, this hyperparameter can be picked up on a small number of tasks and used on longer sequences.

Страницы: « первая предыдущая следующая последняя »

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.