Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Использование реальных данных из нескольких источников для оптимизации транспортных потоков в пакете CTraf
Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 147-159Рассмотрена задача оптимального управления транспортным потоком в сети городских дорог. Управление осуществляется изменением длительностей рабочих фаз светофоров на регулируемых перекрестках. Приведено описание разработанной системы управления. В системе управления предусмотрено использование трех видов управлений: программного, с обратной связью и ручного. При управлении с обратной связью для определения количественных характеристик транспортного потока используются детекторы дорожной инфраструктуры, видеокамеры, индуктивные петлевые и радиолокационные датчики. Обработка сигналов с детекторов позволяет определить состояние транспортного потока в каждый текущий момент времени. Для определения моментов переключения рабочих фаз светофоров количественные характеристики транспортных потоков поступают в математическую модель транспортного потока, реализованную в вычислительной среде системы автоматического управления транспортными потоками. Модель представляет собой систему конечно-разностных рекуррентных уравнений и описывает изменение транспортного потока на каждом участке дороги в каждый такт времени на основе рассчитанных данных по характеристикам транспортного потока в сети, пропускным способностям маневров и распределению потока на перекрестках с альтернативными направлениями движения. Модель обладает свойствами масштабирования и агрегирования. Структура модели зависит от структуры графа управляемой сети дорог, а количество узлов в графе равно количеству рассматриваемых участков дорог сети. Моделирование изменений транспортного потока в режиме реального времени позволяет оптимально определять длительности рабочих фаз светофоров и обеспечивать управление транспортным потоком с обратной связью по его текущему состоянию. В работе рассмотрена система автоматического сбора и обработки данных, поступающих в модель. Для моделирования состояний транспортного потока в сети и решения задачи оптимального управления транспортным потоком разработан программный комплекс CTraf, краткое описание которого представлено в работе. Приведен пример решения задачи оптимального управления транспортным потокам в сети дорог города Москва на основе реальных данных.
Ключевые слова: управление транспортными потоками, оптимальное управление, моделирование транспортных потоков, эволюционные вычисления, обработка гетерогенных данных.
Utilizing multi-source real data for traffic flow optimization in CTraf
Computer Research and Modeling, 2024, v. 16, no. 1, pp. 147-159The problem of optimal control of traffic flow in an urban road network is considered. The control is carried out by varying the duration of the working phases of traffic lights at controlled intersections. A description of the control system developed is given. The control system enables the use of three types of control: open-loop, feedback and manual. In feedback control, road infrastructure detectors, video cameras, inductive loop and radar detectors are used to determine the quantitative characteristics of current traffic flow state. The quantitative characteristics of the traffic flows are fed into a mathematical model of the traffic flow, implemented in the computer environment of an automatic traffic flow control system, in order to determine the moments for switching the working phases of the traffic lights. The model is a system of finite-difference recurrent equations and describes the change in traffic flow on each road section at each time step, based on retrived data on traffic flow characteristics in the network, capacity of maneuvers and flow distribution through alternative maneuvers at intersections. The model has scaling and aggregation properties. The structure of the model depends on the structure of the graph of the controlled road network. The number of nodes in the graph is equal to the number of road sections in the considered network. The simulation of traffic flow changes in real time makes it possible to optimally determine the duration of traffic light operating phases and to provide traffic flow control with feedback based on its current state. The system of automatic collection and processing of input data for the model is presented. In order to model the states of traffic flow in the network and to solve the problem of optimal traffic flow control, the CTraf software package has been developed, a brief description of which is given in the paper. An example of the solution of the optimal control problem of traffic flows on the basis of real data in the road network of Moscow is given.
-
Эволюционные эффекты неселективного равновесного промысла в генетически неоднородной популяции
Компьютерные исследования и моделирование, 2025, т. 17, № 4, с. 717-735Оптимизация промысла остается важной задачей математической биологии. Концепция максимального равновесного изъятия MSY, популярная в теории оптимальной эксплуатации, предполагает поддержание численности популяции на уровне максимального воспроизводства, что в теории позволяет балансировать между экономической выгодой и сохранением биоресурсов. Однако этот подход имеет ограничения, обусловленные сложной структурой популяций и нелинейностью динамических процессов. Особую проблему представляют эволюционные последствия: селективный промысел изменяет условия отбора, что ведет к трансформации поведенческих характеристик, ухудшению качества потомства и изменению генофонда. Влияние неселективного промысла на генетический состав изучено меньше.
В работе исследуется влияние неселективного промысла с постоянной долей изъятия на эволюцию генетически неоднородной популяции. Предполагается, что генетическое разнообразие контролируется одним локусом с двумя аллелями. При высокой и низкой численности преимущество получают разные генотипы: одни более плодовиты (r-стратегия), другие более устойчивы к ограничению по ресурсам (K-стратегия). Рассматривается классическая эколого-генетическая модель с дискретным временем в предположении, что приспособленность каждого из генотипов линейно зависит от популяционной численности. Включение в модель коэффициента промыслового изъятия позволяет связать задачу оптимизации промысла с задачей прогноза отбора генотипов.
Аналитически показано, что при промысле, обеспечивающем максимальный устойчивый улов (MSY), равновесный генетический состав не меняется, а численность снижается вдвое, при этом тип генетического равновесия может измениться. Это связано с тем, что оптимальная доля изъятия для одного генетического равновесия не является оптимальной для других. В отсутствие промысла доминируют K-стратеги, но изъятие особей может сместить баланс в пользу r-стратегов, чья высокая плодовитость компенсирует потери. Определены критические уровни изъятия, при которых происходит смена доминирующей стратегии.
Результаты объясняют, почему промысловые популяции медленно восстанавливаются после прекращения эксплуатации: промысел закрепляет адаптации, выгодные при изъятии, но снижающие устойчивость в естественных условиях. Например, у песцов в неволе закрепляются высокопродуктивные генотипы, тогда как в природе преобладают особи с меньшей плодовитостью, но большей выживаемостью. Это указывает на необходимость учета генетической динамики при разработке стратегий устойчивого промысла.
Ключевые слова: математическая модель с дискретным временем, эволюция, линейный r–K-отбор, устойчивость, бифуркация, оптимальный равновесный промысел.
Evolutionary effects of non-selective sustainable harvesting in a genetically heterogeneous population
Computer Research and Modeling, 2025, v. 17, no. 4, pp. 717-735The problem of harvest optimization remains a central challenge in mathematical biology. The concept of Maximum Sustainable Yield (MSY), widely used in optimal exploitation theory, proposes maintaining target populations at levels ensuring maximum reproduction, theoretically balancing economic benefits with resource conservation. While MSYbased management promotes population stability and system resilience, it faces significant limitations due to complex intrapopulation structures and nonlinear dynamics in exploited species. Of particular concern are the evolutionary consequences of harvesting, as artificial selection may drive changes divergent from natural selection pressures. Empirical evidence confirms that selective harvesting alters behavioral traits, reduces offspring quality, and modifies population gene pools. In contrast, the genetic impacts of non-selective harvesting remain poorly understood and require further investigation.
This study examines how non-selective harvesting with constant removal rates affects evolution in genetically heterogeneous populations. We model genetic diversity controlled by a single diallelic locus, where different genotypes dominate at high/low densities: r-strategists (high fecundity) versus K-strategists (resource-limited resilience). The classical ecological and genetic model with discrete time is considered. The model assumes that the fitness of each genotype linearly depends on the population size. By including the harvesting withdrawal coefficient, the model allows for linking the problem of optimizing harvest with the that of predicting genotype selection.
Analytical results demonstrate that under MSY harvesting the equilibrium genetic composition remains unchanged while population size halves. The type of genetic equilibrium may shift, as optimal harvest rates differ between equilibria. Natural K-strategist dominance may reverse toward r-strategists, whose high reproduction compensates for harvest losses. Critical harvesting thresholds triggering strategy shifts were identified.
These findings explain why exploited populations show slow recovery after harvesting cessation: exploitation reinforces adaptations beneficial under removal pressure but maladaptive in natural conditions. For instance, captive arctic foxes select for high-productivity genotypes, whereas wild populations favor lower-fecundity/higher-survival phenotypes. This underscores the necessity of incorporating genetic dynamics into sustainable harvesting management strategies, as MSY policies may inadvertently alter evolutionary trajectories through density-dependent selection processes. Recovery periods must account for genetic adaptation timescales in management frameworks.
-
Синхронизации циркадианных ритмов в масштабах гена, клетки и всего организма
Компьютерные исследования и моделирование, 2013, т. 5, № 2, с. 255-270В работе выделяется три характерных масштаба описания биосистемы: микроскопический (размер гена), мезоскопический (размер клетки) и макроскопический (размер организма). Для каждого случая обсуждается подход к моделированию циркадианных ритмов на примере предложенной ранее модели с запаздыванием. На уровне гена использовалось стохастическое описание. Показана устойчивость механизма ритмов по отношению к флуктуациям. На мезоскопическом уровне предложено детерминистское описание в рамках пространственно-распределенной модели. Обнаружен эффект групповой синхронизации колебаний в клетках. Макроскопические эффекты исследованы в рамках дискретной модели, описывающей коллективное поведение большого числа клеток. Обсуждается вопрос о сшивании результатов, полученных на разных уровнях описания. Проводится сравнение с экспериментальными данными.
Synchronization of circadian rhythms in the scale of a gene, a cell and a whole organism
Computer Research and Modeling, 2013, v. 5, no. 2, pp. 255-270Просмотров за год: 1. Цитирований: 8 (РИНЦ).In the paper three characteristic scales of a biological system are proposed: microscopic (gene's size), mesoscopic (cell’s size) and macroscopic level (organism’s size). For each case the approach to modeling of circadian rhythms is discussed on the base of a time-delay model. At gene’s scale the stochastic description has been used. The robustness of rhythms mechanism to the fluctuations has been demonstrated. At the mesoscopic scale we propose the deterministic description within the spatially extended model. It was found the effect of collective synchronization of rhythms in cells. Macroscopic effects have been studied within the discrete model describing the collective behaviour of large amount of cells. The problem of cross-linking of results obtained at different scales is discussed. The comparison with experimental data is given.
-
Методика работы с унаследованными информационными системами
Компьютерные исследования и моделирование, 2014, т. 6, № 2, с. 331-344В данной статье предлагается методика работы с унаследованными информационными системами. В процессе профессиональной деятельности специалистам в области машиностроения приходится сталкиваться с тем, что компьютерные приложения, с помощью которых было спроектировано изделие, устаревают значительно быстрее, чем само изделие. В тоже время переход на современные информационные системы может быть затруднен по ряду причин. В таком случае говорят о проблеме унаследованных систем. Она возникает тогда, когда жизненный цикл изделия намного превосходит время жизни программных систем, с помощью которых это изделие создавалось. Для решения этой проблемы в настоящей статье автором предлагается методика, на основе которой был разработан программный комплекс.
Methodic of legacy information systems handling
Computer Research and Modeling, 2014, v. 6, no. 2, pp. 331-344Просмотров за год: 3. Цитирований: 1 (РИНЦ).In this article a method of legacy information systems handling is offered. During professional activities of specialists of various domains of industry they face with the problem that computer software that was involved in product development stage becomes obsolete much quickly than the product itself. At the same time switch to any modern software might be not possible due to various reasons. This problem is known as "legacy system" problem. It appears when product lifecycle is sufficiently longer than that of software systems that were used for product creation. In this article author offers an approach for solving this problem along with computer application based on this approach.
-
Укрупненная модель эколого-экономической системы на примере Республики Армения
Компьютерные исследования и моделирование, 2014, т. 6, № 4, с. 621-631В настоящей статье представлена укрупненная динамическая модель эколого-экономической системы Республики Армения (РА). Такая модель построена с использованием методов системной динамики, позволяющих учесть важнейшие обратные связи, относящиеся к ключевым характеристикам эколого-экономической системы. Данная модель является двухкритериальной задачей, где в качестве целевого функционала рассматриваются уровень загрязнения воздуха и валовой прибыли национальной экономики. Уровень загрязнения воздуха минимизируется за счет модернизации стационарных и мобильных источников загрязнения при одновременной максимизации валовой прибыли национальной экономики. При этом рассматриваемая эколого-экономическая система характеризуется наличием внутренних ограничений, которые должны быть учтены при принятии стратегических решений. В результате предложен системный подход, позволяющий формировать рациональные решения по развитию производственной сферы РА при минимизации воздействия на окружающую среду. С помощью предлагаемого подхода, в частности, можно формировать план по оптимальной модернизации предприятий и прогнозировать долгосрочную динамику выбросов вредных веществ в атмосферу.
Ключевые слова: экологическое моделирование, системная динамика, многопараметрическая оптимизация, имитационное моделирование.
The integrated model of eco-economic system on the example of the Republic of Armenia
Computer Research and Modeling, 2014, v. 6, no. 4, pp. 621-631Просмотров за год: 14. Цитирований: 7 (РИНЦ).This article presents an integrated dynamic model of eco-economic system of the Republic of Armenia (RA). This model is constructed using system dynamics methods, which allow to consider the major feedback related to key characteristics of eco-economic system. Such model is a two-objective optimization problem where as target functions the level of air pollution and gross profit of national economy are considered. The air pollution is minimized due to modernization of stationary and mobile sources of pollution at simultaneous maximization of gross profit of national economy. At the same time considered eco-economic system is characterized by the presence of internal constraints that must be accounted at acceptance of strategic decisions. As a result, we proposed a systematic approach that allows forming sustainable solutions for the development of the production sector of RA while minimizing the impact on the environment. With the proposed approach, in particular, we can form a plan for optimal enterprise modernization and predict long-term dynamics of harmful emissions into the atmosphere.
-
Особенности движения кинков ДНК при асинхронном включении/выключении постоянного и периодического полей
Компьютерные исследования и моделирование, 2018, т. 10, № 4, с. 545-558Исследование влияния внешних полей на живые системы — одно их наиболее интересных и быстро развивающихся направлений современной биофизики. Однако механизмы такого воздействия до сих пор не совсем ясны. Один из подходов к изучению этого вопроса связывают с моделированием взаимодействия внешних полей с внутренней подвижностью биологических объектов. В настоящей работе этот подход применяется для исследования влияния внешних полей на движение локальных конформационных возмущений — кинков в молекуле ДНК. Понимая и учитывая, что в целом такая задача тесно связана с задачей о механизмах регуляции процессов жизнедеятельности клеток и клеточных систем, мы поставили задачу — исследовать физические механизмы, регулирующие движение кинков, а также ответить на вопрос, могут ли постоянные и периодические поля выступать в роли регуляторов этого движения. В работе рассматривается самый общий случай, когда постоянные и периодические поля включаются и выключаются асинхронно. Детально исследованы три варианта асинхронного включения/выключения. В первом варианте интервалы (или диапазоны) действия постоянного и периодического полей не перекрываются, во втором — перекрываются, а третьем — интервалы вложены друг в друга. Расчеты выполнялись для последовательности плазмиды pTTQ18. Движение кинков моделировалось уравнением МакЛафлина–Скотта, а коэффициенты этого уравнения рассчитывались в квазиоднородном приближении. Численные эксперименты показали, что постоянные и периодические поля оказывают существенное влияние на характер движения кинка и регулируют его. Так, включение постоянного поля приводит к быстрому увеличению скорости кинка и установлению стационарной скорости движения, а включение периодического поля приводит к установившимся колебаниям кинка с частотой внешнего периодического поля. Показано, что поведение кинка зависит от взаимного расположения диапазонов действия внешних полей. Причем, как оказалось, события, происходящие в одном диапазоне, могут оказывать влияние на события в другом временном диапазоне даже в том случае, когда диапазоны расположены достаточно далеко друг от друга. Показано, что перекрывание диапазонов действия постоянного и периодического полей приводит к значительному увеличению пути, проходимому кинком до полной остановки. Максимальный рост пути наблюдается в случае вложенных друг в друга диапазонов. В заключении обсуждается вопрос о том, как полученные модельные результаты могут быть связаны с важнейшей задачей биологии — задачей о механизмах регуляции процессов жизнедеятельности клеток и клеточных систем.
Ключевые слова: уравнение МакЛафлина–Скотта, кинки ДНК, действие внешних полей, асинхронное включение/выключение.
Features of the DNA kink motion in the asynchronous switching on and off of the constant and periodic fields
Computer Research and Modeling, 2018, v. 10, no. 4, pp. 545-558Просмотров за год: 29. Цитирований: 1 (РИНЦ).Investigation of the influence of external fields on living systems is one of the most interesting and rapidly developing areas of modern biophysics. However, the mechanisms of such an impact are still not entirely clear. One approach to the study of this issue is associated with modeling the interaction of external fields with internal mobility of biological objects. In this paper, this approach is used to study the effect of external fields on the motion of local conformational distortions — kinks, in the DNA molecule. Realizing and taking into account that on the whole this task is closely connected with the problem of the mechanisms of regulation of vital processes of cells and cellular systems, we set the problem — to investigate the physical mechanisms regulating the motion of kinks and also to answer the question whether permanent and periodic fields can play the role of regulators of this movement. The paper considers the most general case, when constant and periodic fields are switching on and off asynchronously. Three variants of asynchronous switching on/off are studied in detail. In the first variant, the time intervals (or diapasons) of the actions of the constant and periodic fields do not overlap, in the second — overlap, and in the third — the intervals are putting in each other. The calculations were performed for the sequence of plasmid pTTQ18. The kink motion was modeled by the McLaughlin–Scott equation, and the coefficients of the equation were calculated in a quasi-homogeneous approximation. Numerical experiments showed that constant and periodic fields exert a significant influence on the character of the kink motion and regulate it. So the switching on of a constant field leads to a rapid increase of the kink velocity and to the establishment of a stationary velocity of motion, and the switching on of a periodic field leads to the steady oscillations of the kink with the frequency of the external periodic field. It is shown that the behavior of the kink depends on the mutual arrangement of the diapasons of the action of the external fields. As it turned out, events occurring in one of the two diapasons can affect the events in the other diapason, even when the diapasons are sufficiently far apart. It is shown that the overlapping of the diapasons of action of the constant and periodic fields leads to a significant increase in the path traversed by the kink to a complete stop. Maximal growth of the path is observed when one diapason is putting in each other. In conclusion, the question of how the obtained model results could be related to the most important task of biology — the problem of the mechanisms of regulation of the processes of vital activity of cells and cellular systems is discussed.
-
Анализ эффективности методов машинного обучения в задаче распознавания жестов на основе данных электромиографических сигналов
Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 175-194При разработке систем человеко-машинных интерфейсов актуальной является задача распознавания жестов. Для выявления наиболее эффективного метода распознавания жестов был проведен анализ различных методов машинного обучения, используемых для классификации движений на основе электромиографических сигналов мышц. Были рассмотрены такие методы, как наивный байесовский классификатор (НБК), дерево решений, случайный лес, градиентный бустинг, метод опорных векторов, метод $k$-ближайших соседей, а также ансамбли методов (НБК и дерево решений, НБК и градиентный бустинг, градиентный бустинг и дерево решений). В качестве метода получения информации о жестах была выбрана электромиография. Такое решение не требует расположения руки в поле зрения камеры и может быть использовано для распознавания движений пальцев рук. Для проверки эффективности выбранных методов распознавания жестов было разработано устройство регистрации электромиографического сигнала мышц предплечья, которое включает в себя три электрода и ЭМГ-датчик, соединенный с микрокон- троллером и блоком питания. В качестве жестов были выбраны: сжатие кулака, знак «большой палец», знак «Виктория», сжатие указательного пальца и взмах рукой справа налево. Оценка эффективности методов классификации проводилась на основе значений доли правильных ответов, точности, полноты, а также среднего значения времени работы классификатора. Данные параметры были рассчитаны для трех вариантов расположения электромиографических электродов на предплечье. По результатам тести- рования, наиболее эффективными методами являются метод $k$-ближайших соседей, случайный лес и ансамбль НБК и градиентного бустинга, средняя точность которого для трех положений электродов составила 81,55 %. Также было определено положение электродов, при котором методы машинного обучения достигают максимального значения точности распознавания. При таком положении один из дифференциальных электродов располагается на месте пересечения глубокого сгибателя пальцев и длинного сгибателя большого пальца, второй — над поверхностным сгибателем пальцев
Ключевые слова: машинное обучение, распознавание жестов, человеко-машинный интерфейс, электромиография, ансамбль методов, градиентный бустинг, метод $k$-ближайших соседей, дерево решений.
Analysis of the effectiveness of machine learning methods in the problem of gesture recognition based on the data of electromyographic signals
Computer Research and Modeling, 2021, v. 13, no. 1, pp. 175-194Gesture recognition is an urgent challenge in developing systems of human-machine interfaces. We analyzed machine learning methods for gesture classification based on electromyographic muscle signals to identify the most effective one. Methods such as the naive Bayesian classifier (NBC), logistic regression, decision tree, random forest, gradient boosting, support vector machine (SVM), $k$-nearest neighbor algorithm, and ensembles (NBC and decision tree, NBC and gradient boosting, gradient boosting and decision tree) were considered. Electromyography (EMG) was chosen as a method of obtaining information about gestures. This solution does not require the location of the hand in the field of view of the camera and can be used to recognize finger movements. To test the effectiveness of the selected methods of gesture recognition, a device was developed for recording the EMG signal, which includes three electrodes and an EMG sensor connected to the microcontroller and the power supply. The following gestures were chosen: clenched fist, “thumb up”, “Victory”, squeezing an index finger and waving a hand from right to left. Accuracy, precision, recall and execution time were used to evaluate the effectiveness of classifiers. These parameters were calculated for three options for the location of EMG electrodes on the forearm. According to the test results, the most effective methods are $k$-nearest neighbors’ algorithm, random forest and the ensemble of NBC and gradient boosting, the average accuracy of ensemble for three electrode positions was 81.55%. The position of the electrodes was also determined at which machine learning methods achieve the maximum accuracy. In this position, one of the differential electrodes is located at the intersection of the flexor digitorum profundus and flexor pollicis longus, the second — above the flexor digitorum superficialis.
-
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
Extracting knowledge from text messages: overview and state-of-the-art
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1291-1315In general, solving the information explosion problem can be delegated to systems for automatic processing of digital data. These systems are intended for recognizing, sorting, meaningfully processing and presenting data in formats readable and interpretable by humans. The creation of intelligent knowledge extraction systems that handle unstructured data would be a natural solution in this area. At the same time, the evident progress in these tasks for structured data contrasts with the limited success of unstructured data processing, and, in particular, document processing. Currently, this research area is undergoing active development and investigation. The present paper is a systematic survey on both Russian and international publications that are dedicated to the leading trend in automatic text data processing: Text Mining (TM). We cover the main tasks and notions of TM, as well as its place in the current AI landscape. Furthermore, we analyze the complications that arise during the processing of texts written in natural language (NLP) which are weakly structured and often provide ambiguous linguistic information. We describe the stages of text data preparation, cleaning, and selecting features which, alongside the data obtained via morphological, syntactic, and semantic analysis, constitute the input for the TM process. This process can be represented as mapping a set of text documents to «knowledge». Using the case of stock trading, we demonstrate the formalization of the problem of making a trade decision based on a set of analytical recommendations. Examples of such mappings are methods of Information Retrieval (IR), text summarization, sentiment analysis, document classification and clustering, etc. The common point of all tasks and techniques of TM is the selection of word forms and their derivatives used to recognize content in NL symbol sequences. Considering IR as an example, we examine classic types of search, such as searching for word forms, phrases, patterns and concepts. Additionally, we consider the augmentation of patterns with syntactic and semantic information. Next, we provide a general description of all NLP instruments: morphological, syntactic, semantic and pragmatic analysis. Finally, we end the paper with a comparative analysis of modern TM tools which can be helpful for selecting a suitable TM platform based on the user’s needs and skills.
-
Стохастическая оптимизация в задаче цифрового предыскажения сигнала
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 399-416В данной статье осуществляется сравнение эффективности некоторых современных методов и практик стохастической оптимизации применительно к задаче цифрового предыскажения сигнала (DPD), которое является важной составляющей процесса обработки сигнала на базовых станциях, обеспечивающих беспроводную связь. В частности, рассматривается два круга вопросов о возможностях применения стохастических методов для обучения моделей класса Винера – Гаммерштейна в рамках подхода минимизации эмпирического риска: касательно улучшения глубины и скорости сходимости данного метода оптимизации и относительно близости самой постановки задачи (выбранной модели симуляции) к наблюдаемому в действительности поведению устройства. Так, в первой части этого исследования внимание будет сосредоточено на вопросе о нахождении наиболее эффективного метода оптимизации и дополнительных к нему модификаций. Во второй части предлагается новая квази-онлайн-постановка задачи и, соответственно, среда для тестирования эффективности методов, благодаря которым результаты численного моделирования удается привести в соответствие с поведением реального прототипа устройства DPD. В рамках этой новой постановки далее осуществляется повторное тестирование некоторых избранных практик, более подробно рассмотренных в первой части исследования, и также обнаруживаются и подчеркиваются преимущества нового лидирующего метода оптимизации, оказывающегося теперь также наиболее эффективным и в практических тестах. Для конкретной рассмотренной модели максимально достигнутое улучшение глубины сходимости составило 7% в стандартном режиме и 5% в онлайн-постановке (при том что метрика сама по себе имеет логарифмическую шкалу). Также благодаря дополнительным техникам оказывается возможным сократить время обучения модели DPD вдвое, сохранив улучшение глубины сходимости на 3% и 6% для стандартного и онлайн-режимов соответственно. Все сравнения производятся с методом оптимизации Adam, который был отмечен как лучший стохастический метод для задачи DPD из рассматриваемых в предшествующей работе [Pasechnyuk et al., 2021], и с методом оптимизации Adamax, который оказывается наиболее эффективным в предлагаемом онлайн-режиме.
Ключевые слова: цифровое предыскажение, обработка сигнала, стохастическая оптимизация, онлайн-обучение.
Stochastic optimization in digital pre-distortion of the signal
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 399-416In this paper, we test the performance of some modern stochastic optimization methods and practices with respect to the digital pre-distortion problem, which is a valuable part of processing signal on base stations providing wireless communication. In the first part of our study, we focus on the search for the best performing method and its proper modifications. In the second part, we propose the new, quasi-online, testing framework that allows us to fit our modeling results with the behavior of real-life DPD prototype, retest some selected of practices considered in the previous section and approve the advantages of the method appearing to be the best under real-life conditions. For the used model, the maximum achieved improvement in depth is 7% in the standard regime and 5% in the online regime (metric itself is of logarithmic scale). We also achieve a halving of the working time preserving 3% and 6% improvement in depth for the standard and online regime, respectively. All comparisons are made to the Adam method, which was highlighted as the best stochastic method for DPD problem in [Pasechnyuk et al., 2021], and to the Adamax method, which is the best in the proposed online regime.
-
Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.
Ключевые слова: анализ текста, обработка естественного языка, активность в Twitter, частотный анализ, отбор признаков, задача классификации, финансовые рынки.
Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"





