Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Численно-аналитическое моделирование гравитационного линзирования электромагнитных волн в случайно-неоднородной космической плазме
Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 433-443Для интерпретации данных измерений астрофизических прецизионных инструментов нового поколения разработан аппарат численно-аналитического моделирования характеристик распространения электромагнитных волн в хаотической космической плазме с учетом эффектов гравитации. Задача распространения волн в искривленном (римановом) пространстве решена в евклидовом пространстве путем введения эффективного показателя преломления вакуума, выраженного через потенциал тяготения. Задавая различные модели плотности распределения массы астрофизических объектов и решая уравнение Пуассона, можно рассчитать гравитационный потенциал и вычислить эффективный показатель преломления вакуума. В предположении аддитивности вкладов различных объектов в общее гравитационное поле предложена приближенная модель эффективного показателя преломления. Считая пространственные масштабы показателя преломления много больше длины волны, расчет характеристик электромагнитных волн в поле тяготения астрофизических объектов проводится в приближении геометрической оптики. В основу численно-аналитического аппарата моделирования траекторных характеристик волн положены лучевые дифференциальные уравнения в форме Эйлера. Хаотические неоднородности космической плазмы заданы моделью пространственной корреляционной функции показателя преломления. Расчеты рефракционного рассеяния волн выполнены в приближении метода возмущений. Получены интегральные выражения для статистических моментов боковых отклонений лучей в картинной плоскости наблюдателя. С помощью аналитических преобразований интегралы для моментов сведены к системе обыкновенных дифференциальных уравнений первого порядка для совместного численного расчета средних и среднеквадратичных отклонений лучей. Приведены результаты численно-аналитического моделирования траекторной картины распространения электромагнитных волн в межзвездной среде с учетом воздействий полей тяготения космических объектов и рефракционного рассеяния волн на неоднородностях показателя преломления окружающей плазмы. На основе результатов моделирования сделана количественная оценка условий стохастического замывания эффектов гравитационного линзирования электромагнитных волн в различных частотных диапазонах. Показано, что рабочие частоты метрового диапазона длин волн представляют собой условную низкочастотную границу для наблюдений эффекта гравитационного линзирования в стохастической космической плазме. Предложенный аппарат численно-аналитического моделирования можно использовать для анализа структуры электромагнитного излучения квазаров, прошедшего группу галактик.
Ключевые слова: математическое моделирование, асимптотические разложения, электромагнитные волны, гравитационное поле, космическая плазма, численные методы, стохастические процессы, лучевое приближение.
Numerical-analytical modeling of gravitational lensing of the electromagnetic waves in random-inhomogeneous space plasma
Computer Research and Modeling, 2024, v. 16, no. 2, pp. 433-443Instrument of numerical-analytical modeling of characteristics of propagation of electromagnetic waves in chaotic space plasma with taking into account effects of gravitation is developed for interpretation of data of measurements of astrophysical precision instruments of new education. The task of propagation of waves in curved (Riemann’s) space is solved in Euclid’s space by introducing of the effective index of refraction of vacuum. The gravitational potential can be calculated for various model of distribution of mass of astrophysical objects and at solution of Poisson’s equation. As a result the effective index of refraction of vacuum can be evaluated. Approximate model of the effective index of refraction is suggested with condition that various objects additively contribute in total gravitational field. Calculation of the characteristics of electromagnetic waves in the gravitational field of astrophysical objects is performed by the approximation of geometrical optics with condition that spatial scales of index of refraction a lot more wavelength. Light differential equations in Euler’s form are formed the basis of numerical-analytical instrument of modeling of trajectory characteristic of waves. Chaotic inhomogeneities of space plasma are introduced by model of spatial correlation function of index of refraction. Calculations of refraction scattering of waves are performed by the approximation of geometrical optics. Integral equations for statistic moments of lateral deviations of beams in picture plane of observer are obtained. Integrals for moments are reduced to system of ordinary differential equations the firsts order with using analytical transformations for cooperative numerical calculation of arrange and meansquare deviations of light. Results of numerical-analytical modeling of trajectory picture of propagation of electromagnetic waves in interstellar space with taking into account impact of gravitational fields of space objects and refractive scattering of waves on inhomogeneities of index of refraction of surrounding plasma are shown. Based on the results of modeling quantitative estimation of conditions of stochastic blurring of the effect of gravitational lensing of electromagnetic waves at various frequency ranges is performed. It’s shown that operating frequencies of meter range of wavelengths represent conditional low-frequency limit for observational of the effect of gravitational lensing in stochastic space plasma. The offered instrument of numerical-analytical modeling can be used for analyze of structure of electromagnetic radiation of quasar propagating through group of galactic.
-
Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.
Ключевые слова: анализ текста, обработка естественного языка, активность в Twitter, ча- стотный анализ, отбор признаков, задача классификации, финансовые рынки, бенчмарк, случайный лес, решающие деревья.
Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.
-
Оптимизация словаря команд на основе статистического критерия близости в задаче распознавания невербальной речи
Компьютерные исследования и моделирование, 2023, т. 15, № 3, с. 675-690В исследовании мы сосредоточились на задаче классификации невербальной речи для разработки интерфейса «мозг–компьютер» (ИМК) на основе электроэнцефалографии (ЭЭГ), который будет способен помочь людям с ограниченными возможностями и расширить возможности человека в повседневной жизни. Ранее наши исследования показали, что беззвучная речь для некоторых слов приводит к почти идентичным распределениям ЭЭГ-данных. Это явление негативно влияет на точность классификации нейросетевой модели. В этой статье предлагается метод обработки данных, который различает статисти- чески удаленные и неразделимые классы данных. Применение предложенного подхода позволяет достичь цели максимального увеличения смысловой нагрузки словаря, используемого в ИМК.
Кроме того, мы предлагаем статистический прогностический критерий точности бинарной классификации слов в словаре. Такой критерий направлен на оценку нижней и верхней границ поведения классификаторов только путем измерения количественных статистических свойств данных (в частности, с использованием метода Колмогорова – Смирнова). Показано, что более высокие уровни точности классификации могут быть достигнуты за счет применения предложенного прогностического критерия, позволяющего сформировать оптимизированный словарь с точки зрения семантической нагрузки для ИМК на основе ЭЭГ. Кроме того, использование такого обучающего набора данных для задач классификации по словарю обеспечивает статистическую удаленность классов за счет учета семантических и фонетических свойств соответствующих слов и улучшает поведение классификации моделей распознавания беззвучной речи.
Ключевые слова: интерфейс «мозг–компьютер», ЭЭГ, классификация невербальной речи, графовый алгоритм выбора словаря, ИМК, оптимизация глубокого обучения, распознавание невербальной речи, статистический критерий близости.
Optimization of the brain command dictionary based on the statistical proximity criterion in silent speech recognition task
Computer Research and Modeling, 2023, v. 15, no. 3, pp. 675-690In our research, we focus on the problem of classification for silent speech recognition to develop a brain– computer interface (BCI) based on electroencephalographic (EEG) data, which will be capable of assisting people with mental and physical disabilities and expanding human capabilities in everyday life. Our previous research has shown that the silent pronouncing of some words results in almost identical distributions of electroencephalographic signal data. Such a phenomenon has a suppressive impact on the quality of neural network model behavior. This paper proposes a data processing technique that distinguishes between statistically remote and inseparable classes in the dataset. Applying the proposed approach helps us reach the goal of maximizing the semantic load of the dictionary used in BCI.
Furthermore, we propose the existence of a statistical predictive criterion for the accuracy of binary classification of the words in a dictionary. Such a criterion aims to estimate the lower and the upper bounds of classifiers’ behavior only by measuring quantitative statistical properties of the data (in particular, using the Kolmogorov – Smirnov method). We show that higher levels of classification accuracy can be achieved by means of applying the proposed predictive criterion, making it possible to form an optimized dictionary in terms of semantic load for the EEG-based BCIs. Furthermore, using such a dictionary as a training dataset for classification problems grants the statistical remoteness of the classes by taking into account the semantic and phonetic properties of the corresponding words and improves the classification behavior of silent speech recognition models.
-
Использование реальных данных из нескольких источников для оптимизации транспортных потоков в пакете CTraf
Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 147-159Рассмотрена задача оптимального управления транспортным потоком в сети городских дорог. Управление осуществляется изменением длительностей рабочих фаз светофоров на регулируемых перекрестках. Приведено описание разработанной системы управления. В системе управления предусмотрено использование трех видов управлений: программного, с обратной связью и ручного. При управлении с обратной связью для определения количественных характеристик транспортного потока используются детекторы дорожной инфраструктуры, видеокамеры, индуктивные петлевые и радиолокационные датчики. Обработка сигналов с детекторов позволяет определить состояние транспортного потока в каждый текущий момент времени. Для определения моментов переключения рабочих фаз светофоров количественные характеристики транспортных потоков поступают в математическую модель транспортного потока, реализованную в вычислительной среде системы автоматического управления транспортными потоками. Модель представляет собой систему конечно-разностных рекуррентных уравнений и описывает изменение транспортного потока на каждом участке дороги в каждый такт времени на основе рассчитанных данных по характеристикам транспортного потока в сети, пропускным способностям маневров и распределению потока на перекрестках с альтернативными направлениями движения. Модель обладает свойствами масштабирования и агрегирования. Структура модели зависит от структуры графа управляемой сети дорог, а количество узлов в графе равно количеству рассматриваемых участков дорог сети. Моделирование изменений транспортного потока в режиме реального времени позволяет оптимально определять длительности рабочих фаз светофоров и обеспечивать управление транспортным потоком с обратной связью по его текущему состоянию. В работе рассмотрена система автоматического сбора и обработки данных, поступающих в модель. Для моделирования состояний транспортного потока в сети и решения задачи оптимального управления транспортным потоком разработан программный комплекс CTraf, краткое описание которого представлено в работе. Приведен пример решения задачи оптимального управления транспортным потокам в сети дорог города Москва на основе реальных данных.
Ключевые слова: управление транспортными потоками, оптимальное управление, моделирование транспортных потоков, эволюционные вычисления, обработка гетерогенных данных.
Utilizing multi-source real data for traffic flow optimization in CTraf
Computer Research and Modeling, 2024, v. 16, no. 1, pp. 147-159The problem of optimal control of traffic flow in an urban road network is considered. The control is carried out by varying the duration of the working phases of traffic lights at controlled intersections. A description of the control system developed is given. The control system enables the use of three types of control: open-loop, feedback and manual. In feedback control, road infrastructure detectors, video cameras, inductive loop and radar detectors are used to determine the quantitative characteristics of current traffic flow state. The quantitative characteristics of the traffic flows are fed into a mathematical model of the traffic flow, implemented in the computer environment of an automatic traffic flow control system, in order to determine the moments for switching the working phases of the traffic lights. The model is a system of finite-difference recurrent equations and describes the change in traffic flow on each road section at each time step, based on retrived data on traffic flow characteristics in the network, capacity of maneuvers and flow distribution through alternative maneuvers at intersections. The model has scaling and aggregation properties. The structure of the model depends on the structure of the graph of the controlled road network. The number of nodes in the graph is equal to the number of road sections in the considered network. The simulation of traffic flow changes in real time makes it possible to optimally determine the duration of traffic light operating phases and to provide traffic flow control with feedback based on its current state. The system of automatic collection and processing of input data for the model is presented. In order to model the states of traffic flow in the network and to solve the problem of optimal traffic flow control, the CTraf software package has been developed, a brief description of which is given in the paper. An example of the solution of the optimal control problem of traffic flows on the basis of real data in the road network of Moscow is given.
-
Моделирование динамики численности занятого населения в отраслях экономики: агент-ориентированный подход
Компьютерные исследования и моделирование, 2018, т. 10, № 6, с. 919-937Статья посвящена моделированию динамики численности занятого населения по отраслям экономики как на национальном, так и на региональном уровне. Отсутствие целевого распределения работников в рыночной экономике требует исследования системных процессов на рынке труда, приводящих к различной динамике численности занятых в отраслях экономики. В этом случае значимыми становятся личные стратегии выбора трудовой деятельности экономическими агентами. Наличие различных стратегий приводит к появлению страт на рынке труда с динамично изменяющейся численностью занятых, неравномерно распределенной между отраслями экономики. В результате этого могут наблюдаться нелинейные колебания численности занятого населения, для исследования которых релевантен инструментарий агент-ориентированного моделирования. В статье на примере Еврейской автономной области рассмотрены синхронные и противофазные колебания численности занятых по видам экономической деятельности, обнаруженные во временных рядах статистических данных для 2008–2016 гг. Показано, что такие колебания наблюдаются по возрастным группам работников. Ввиду этого выдвинута гипотеза о том, что агент на рынке труда при выборе места работы руководствуется стратегией, характерной для его возрастной группы, что в итоге прямо влияет на распределение численности занятых различных когорт и общую численность занятых в отраслях экономики. При этом стратегия определяется исходя из социально-экономических характеристик отраслей (различного уровня оплаты труда, условий труда, престижа профессии). Для проверки гипотезы построена базовая агент-ориентированная модель трехотраслевой экономики, в которой учтены различные стратегии экономических агентов, включающие выбор наибольшей заработной платы, наиболее высокого престижа профессии и наилучших условий труда. В результате численных экспериментов показано, что наличие различных стратегий выбора отрасли в совокупности с возрастными предпочтениями работодателей внутри отрасли приводит к периодическим и сложным режимам динамики численности разновозрастных занятых. Такие возрастные предпочтения могут быть вызваны, например, требованием работодателя к наличию трудового стажа и образования. Также сущетвенные изменения возрастной структуры занятого населения могут возникнуть вследствие миграции.
Ключевые слова: занятое население, отрасли экономики, агент-ориентированное моделирование, нелинейная динамика.
Modeling of population dynamics employed in the economic sectors: agent-oriented approach
Computer Research and Modeling, 2018, v. 10, no. 6, pp. 919-937Просмотров за год: 34.The article deals with the modeling of the number of employed population by branches of the economy at the national and regional levels. The lack of targeted distribution of workers in a market economy requires the study of systemic processes in the labor market that lead to different dynamics of the number of employed in the sectors of the economy. In this case, personal strategies for choosing labor activity by economic agents become important. The presence of different strategies leads to the emergence of strata in the labor market with a dynamically changing number of employees, unevenly distributed among the sectors of the economy. As a result, non-linear fluctuations in the number of employed population can be observed, the toolkit of agentbased modeling is relevant for the study of the fluctuations. In the article, we examined in-phase and anti-phase fluctuations in the number of employees by economic activity on the example of the Jewish Autonomous Region in Russia. The fluctuations found in the time series of statistical data for 2008–2016. We show that such fluctuations appear by age groups of workers. In view of this, we put forward a hypothesis that the agent in the labor market chooses a place of work by a strategy, related with his age group. It directly affects the distribution of the number of employed for different cohorts and the total number of employed in the sectors of the economy. The agent determines the strategy taking into account the socio-economic characteristics of the branches of the economy (different levels of wages, working conditions, prestige of the profession). We construct a basic agentoriented model of a three-branch economy to test the hypothesis. The model takes into account various strategies of economic agents, including the choice of the highest wages, the highest prestige of the profession and the best working conditions by the agent. As a result of numerical experiments, we show that the availability of various industry selection strategies and the age preferences of employers within the industry lead to periodic and complex dynamics of the number of different-aged employees. Age preferences may be a consequence, for example, the requirements of employer for the existence of work experience and education. Also, significant changes in the age structure of the employed population may result from migration.
-
Неэкстенсивная статистика Тсаллиса системы контрактоворганизаций оборонно-промышленного комплекса
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1163-1183В работе проведен анализ системы контрактов, заключаемых организациями оборонно-промышленного комплекса России в процессе выполнения государственного оборонного заказа. Сделан вывод, что для описания данной системы может быть использована методология статистической механики. По аналогии с подходом, применяемым при рассмотрении большого канонического ансамбля Гиббса, изучаемый ансамбль сформирован в виде набора мгновенных «картинок», образованных из действующих в каждый момент времени неразличимых контрактов со своими стоимостями. Показано, что ограничения, накладываемые государством на процесс ценообразования, являются причиной того, что совокупность контрактов может быть отнесена к категории так называемых сложных систем, для описания которых используется неэкстенсивная статистика Тсаллиса. Это приводит к тому, что стоимостные распределения контрактов должны соответствовать деформированному распределению Бозе–Эйнштейна, полученному с использованием энтропии Тсаллиса. Данный вывод справедлив как для всей совокупности контрактов, заключаемых участниками выполнения государственного оборонного заказа, так и контрактов, заключаемых отдельной организацией в качестве исполнителя.
Для анализа степени соответствия эмпирических стоимостных распределений модифицированному распределению Бозе–Эйнштейна в настоящей работе использован метод сравнения соответствующих функций распределения вероятностей. В работе делается вывод о том, что для изучения стоимостных распределений контрактов отдельной организации в качестве анализируемых данных можно использовать сформировавшиеся за календарный год распределения выручки по отдельным заказам, соответствующим заключенным контрактам. Получены эмпирические функции распределения вероятностей ранжированных значений выручки от реализации по отдельным заказам АО «Концерн «ЦНИИ «Электроприбор», одной из ведущих приборостроительных организаций ОПК России, с 2007 по 2021 год. Наблюдается хорошее согласие между эмпирическими и теоретическими функциями распределений вероятностей, рассчитанными с использованием деформированных распределений Бозе–Эйнштейна в пределе «разряженного газа контрактов». Полученные на основе эмпирических данных значения параметров энтропийного индекса для каждого из изученных распределений выручки свидетельствуют о достаточно высокой степени неаддитивности, присущей изучаемой системе. Показано, что для оценки характеристических стоимостей распределений можно использовать величину среднего значения годовой выручки, рассчитанного с помощью нормированного эскортного распределения. Факт наилучшего согласия эмпирических и теоретических функций распределения вероятностей при нулевых значениях химического потенциала позволяет сделать предположение, что изучаемый «газ контрактов» можно сравнить с газом фотонов, в котором число частиц не является постоянным.
Ключевые слова: эконофизика, статистика Тсаллиса, сложные системы, стоимостные распределенияк онтрактов, деформированное распределение Бозе – Эйнштейна.
Nonextensive Tsallis statistics of contract system of prime contractors and subcontractors in defense industry
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1163-1183In this work, we analyze the system of contracts made by Russian defense enterprises in the process of state defense order execution. We conclude that methods of statistical mechanics can be applied to the description of the given system. Following the original grand-canonical ensemble approach, we can create the statistical ensemble under investigation as a set of instant snapshots of indistinguishable contracts having individual values. We show that due to government regulations of contract prices the contract system can be described in terms of nonextensive Tsallis statistics. We have found that probability distributions of contract prices correspond to deformed Bose – Einstein distributions obtained using nonextensive Tsallis entropy. This conclusion is true both in the case of the whole set of contracts and in the case of the contracts made by an individual defense company as a seller.
In order to analyze how deformed Bose – Einstein distributions fit the empirical contract price distributions we compare the corresponding cumulative distribution functions. We conclude that annual distributions of individual sales which correspond to each company’s contract (order) can be used as relevant data for contract price distributions analysis. The empirical cumulative distribution functions for the individual sales ranking of Concern CSRI Elektropribor, one of the leading Russian defense companies, are analyzed for the period 2007–2021. The theoretical cumulative distribution functions, obtained using deformed Bose – Einstein distributions in the case of «rare contract gas» limit, fit well to the empirical cumulative distribution functions. The fitted values for the entropic index show that the degree of nonextensivity of the system under investigations is rather high. It is shown that the characteristic prices of distributions can be estimated by weighing the values of annual individual sales with the escort probabilities. Given that the fitted values of chemical potential are equal to zero, we suggest that «gas of contracts» can be compared to photon gas in which the number of particles is not conserved.
-
Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.
Ключевые слова: анализ текста, обработка естественного языка, активность в Twitter, частотный анализ, отбор признаков, задача классификации, финансовые рынки.
Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.
-
Хранилища баз данных в обработке в облаке
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 493-498Хранение — это существенная и дорогая часть облачных вычислений как с точки зрения требований сети, так и организации доступа к данным, поэтому выбор архитектуры хранения может быть критическим для любого приложения. В этой работе мы сможем посмотреть на типы облачных архитектур для обработки и хранения данных, основанных на доказанной технологии хранения в сети масштаба пред- приятия. Преимущество облачных вычислений — это способность визуализировать и разделять ресурсы среди различных приложений для наилучшего использования сервера. Мы обсуждаем и оцениваем распределенную обработку данных, архитектуры баз данных для облачных вычислений и очередь баз данных в локальной сети и для условий реального времени.
Ключевые слова: Хранилища баз данных, обработка в облаке, архитектуры хранения, облачная архитектура, обработка и хранение данных.Просмотров за год: 3.Storage is the essential and expensive part of cloud computation both from the point of view of network requirements and data access organization. So the choice of storage architecture can be crucial for any application. In this article we can look at the types of cloud architectures for data processing and data storage based on the proven technology of enterprise storage. The advantage of cloud computing is the ability to virtualize and share resources among different applications for better server utilization. We are discussing and evaluating distributed data processing, database architectures for cloud computing and database query in the local network and for real time conditions.
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
Ключевые слова: криптовалюты, Twitter, машинное обучение, обработка естественного языка, векторизация, dense модель, логистическая регрессия, случайный лес, KNN, наивный байесовский классификатор.
Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.
-
Модели динамики органического вещества почв: проблемы и перспективы
Компьютерные исследования и моделирование, 2016, т. 8, № 2, с. 391-399Почва как сложная полифункциональная открытая система является одним из наиболее проблемных объектов для моделирования. Несмотря на значительные успехи в моделировании почвенной системы, существующие модели не отражают все факторы и процессы минерализации и гумификации органического вещества в почве. С учетом опыта создания и широкого применения системы моделей ROMUL и EFIMOD определены проблемы и точки роста в области моделирования динамики органического вещества почв и элементов-биофилов. В работе рассмотрены вопросы дальнейшего теоретического обоснования, улучшения структуры моделей, подготовки и неопределенности исходных данных, включения всей почвенной биоты (микроорганизмов, микро- и мезофауны) как факторов гумусообразования, влияния минералогического состава почв на динамику углерода и азота, гидротермического режима и формирования органического вещества по профилю почвы, вертикальной и горизонтальной миграции органического вещества. Для успешного решения этих задач необходима эффективная обратная связь между разработчиками моделей и экспериментаторами.
Ключевые слова: математическая модель, органическое вещество почв.
Models of soil organic matter dynamics: problems and perspectives
Computer Research and Modeling, 2016, v. 8, no. 2, pp. 391-399Soil as a complex multifunctional open system is one of the most difficult object for modeling. In spite of serious achievements in the soil system modeling, existed models do not reflect all aspects and processes of soil organic matter mineralization and humification. The problems and “hot spots” in the modeling of the dynamics of soil organic matter and biophylous elements were identified on a base of creation and wide implementation of ROMUL and EFIMOD models. The following aspects are discussed: further theoretical background; improving the structure of models; preparation and uncertainty of the initial data; inclusion of all soil biota (microorganisms, micro- and meso-fauna) as factors of humification; impact of soil mineralogy on C and N dynamics; hydro-thermal regime and organic matter distribution in whole soil profile; vertical and horizontal migration of soil organic matter. An effective feedback from modellers to experimentalists is necessary to solve the listed problems.
Keywords: mathematic model, soil organic matter.Просмотров за год: 2. Цитирований: 3 (РИНЦ).
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"