Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Подходы к кластеризации групп социальной сети
Компьютерные исследования и моделирование, 2015, т. 7, № 5, с. 1127-1139Исследование посвящено проблеме использования социальных сетей в качестве инструмента в противозаконной деятельности и источника информации, способного нести опасность обществу. В статье приводится структура мультиагентной системы, под управлением которой может осуществляться кластеризация групп социальной сети по критериям, однозначно определяющим группу в качестве деструктивной. Приведен алгоритм, который используют агенты системы для кластеризации.
Approaches to a social network groups clustering
Computer Research and Modeling, 2015, v. 7, no. 5, pp. 1127-1139Просмотров за год: 8. Цитирований: 2 (РИНЦ).The research is devoted to the problem of the use of social networks as a tool of the illegal activity and as a source of information that could be dangerous to society. The article presents the structure of the multiagent system with which a social network groups could be clustered according to the criteria uniquely defines a group as a destructive. The agents’ of the system clustering algorithm is described.
-
Современное использование сетевой инфраструктуры в системе обработки задач коллаборации ATLAS
Компьютерные исследования и моделирование, 2015, т. 7, № 6, с. 1343-1349Важнейшим компонентом распределенной вычислительной системы является сетевая инфраструктура. Несмотря на то что сеть составляет основу такого рода систем, она часто является незаметным партнером для систем хранения и вычислительных ресурсов. Мы предлагаем интегрировать сетевой элемент напрямую в распределенные системы через уровень управления нагрузками. Для такого подхода имеется достаточно предпосылок. Так как сложность и требования к распределенным системам растут, очень важно использовать имеющуюся инфраструктуру эффективно. Например, одни могут использовать измерения качества сетевых соединений в механизмах принятия решений в системе управления задачами. Кроме того, новейшие технологии позволяют другим задавать сетевую конфигурацию программно, например используя ПКС — программно-конфигурируемые сети. Мы опишем, как эти методы используются в системе управления задачами PanDA, применяемой коллаборацией ATLAS.
Ключевые слова: ATLAS, PanDA, распределенные вычисления, системы управления задачами, механизмы принятия решений, сеть, измерения сетевой производительности, программно-конфигурируемые сети.
The New Use of Network Element in ATLAS Workload Management System
Computer Research and Modeling, 2015, v. 7, no. 6, pp. 1343-1349Просмотров за год: 2. Цитирований: 2 (РИНЦ).A crucial component of distributed computing systems is network infrastructure. While networking forms the backbone of such systems, it is often the invisible partner to storage and computing resources. We propose to integrate Network Elements directly into distributed systems through the workload management layer. There are many reasons for this approach. As the complexity and demand for distributed systems grow, it is important to use existing infrastructure efficiently. For example, one could use network performance measurements in the decision making mechanisms of workload management systems. New advanced technologies allow one to programmatically define network configuration, for example SDN — Software Defined Networks. We will describe how these methods are being used within the PanDA workload management system of the ATLAS collaboration.
-
Стохастическая модель числа сторонников политического лидера в цифровом публичном пространстве
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 979-997В представленной статье мы исследуем процесс изменения рейтинга одобрения политического лидера под влиянием процессов, протекающих в цифровом публичном пространстве. Драйвером указанных изменений служит взаимодействие пользователей онлайн-площадок (информационных и новостных ресурсов, блогов, социальных сетей), в результате которого они могут обмениваться друг с другом мнениями и формулировать свою позицию в отношении политика. Помимо межличностного взаимодействия мы рассмотрим такие факторы, как информационное воздействие, выражающееся в создании информационного потока, имеющего заданную мощность и тональность (положительную или отрицательную, в контексте влияния на имидж политического лидера), а также наличие группы агентов (лидеров мнений), оказывающих поддержку политику или же, наоборот, негативно влияющих на его представление в медийном пространстве.
Математической основой представленного исследования является модель Кирмана, имеющая истоки в биологии и первоначально нашедшая свое применение в экономике. В рамках даннойм одели считается, что каждый участник находится в одном из двух возможных состояний, а также задается скачкообразный марковский процесс, описывающий переходы между этими состояниями. Для рассматриваемой нами задачи данными состояниями являются 0 или 1, в зависимости от того, является ли конкретный агент сторонником политика и одобряет его деятельность или же нет. Пользуясь аппаратом теории марковских процессов, мы находим его диффузионное приближение, известное как процесс Якоби. При помощи спектрального разложения для инфинитезимального оператора данного процесса мы имеем возможность найти аналитическое представление для плотности переходных вероятностей.
Анализируя вероятности, полученные указанным образом, можно оценить влияние отдельных факторов модели: мощность и тональность новостных сообщений, доступных для пользователей онлайн-пространства и релевантных для задач формирования рейтинга, а также численности сторонников или противников политика. Далее, пользуясь найденными собственными функциями и значениями, мы выводим выражения для оценки условных математических ожиданий рейтинга политика, что может служить основой для построения прогнозов, важных для задач формирования стратегии представления политического лидера в онлайн-среде.
Ключевые слова: рейтинг одобрения, политическое лидерство, информационное воздействие, стадное поведение, марковскийпр оцесс.
Stochastic model of voter dynamics in online media
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 979-997In the present article we explore the process of changing the level of approval of a political leader under the influence of the processes taking place in online platforms (social networks, forums, etc.). The driver of these changes is the interaction of users, through which they can exchange opinions with each other and formulate their position in relation to the political leader. In addition to interpersonal interaction, we will consider such factors as the information impact, expressed in the creation of an information flow with a given power and polarity (positive or negative, in the context of influencing the image of a political leader), as well as the presence of a group of agents (opinion leaders), supporting the leader, or, conversely, negatively affecting its representation in the media space.
The mathematical basis of the presented research is the Kirman model, which has its roots in biology and initially found its application in economics. Within the framework of this model it is considered that each user is in one of the two possible states, and a Markov jump process describing transitions between these states is given. For the problem under consideration, these states are 0 or 1, depending on whether a particular agent is a supporter of a political leader or not. For further research, we find its diffusional approximation, known as the Jacoby process. With the help of spectral decomposition for the infinitesimal operator of this process we have an opportunity to find an analytical representation for the transition probability density.
Analyzing the probabilities obtained in this way, we can assess the influence of individual factors of the model: the power and direction of the information flow, available to online users and relevant to the tasks of rating formation, as well as the number of supporters or opponents of the politician. Next, using the found eigenfunctions and eigenvalues, we derive expressions for the evaluation of conditional mathematical expectations of a politician’s rating, which can serve as a basis for building forecasts that are important for the formation of a strategy of representing a political leader in the online environment.
-
Граничные условия для решеточных уравнений Больцмана в приложениях к задачам гемодинамики
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 865-882Рассматривается одномерная трехскоростная кинетическая решеточная модель уравнения Больцмана, которая в рамках кинетической теории описывает распространение и взаимодействие частиц трех типов. Данная модель представляет собой разностную схему второго порядка для уравнений гидродинамики. Ранее было показано, что одномерная кинетическая решеточная модель уравнения Больцмана с внешней силой в пределе малых длин свободного пробега также эквивалентна одномерным уравнениям гемодинамики для эластичных сосудов, эквивалентность можно установить, используя разложение Чепмена – Энскога. Внешняя сила в модели отвечает за возможность регулировки функциональной зависимости между площадью просвета сосуда и приложенного к стенке рассматриваемого сосуда давления. Таким образом, меняя форму внешней силы, можно моделировать практически произвольные эластичные свойства стенок сосудов. В настоящей работе рассмотрены постановки физиологически интересных граничных условий для решеточных уравнений Больцмана в приложениях к задачам течения крови в сети эластичных сосудов. Разобраны следующие граничные условия: для давления и потока крови на входе сосудистой сети, условия для давления и потоков крови в точке бифуркации сосудов, условия отражения (соответствуют полной окклюзии сосуда) и поглощения волн на концах сосудов (эти условия соответствуют прохождению волны без искажений), а также условия типа RCR, представляющие собой схему, аналогичную электрическим цепям и состоящую из двух резисторов (соответствующих импедансу сосуда, на конце которого ставятся граничные условия, а также силам трения крови в микроциркуляторном русле) и одного конденсатора (описывающего эластичные свойства артериол). Проведено численное моделирование, рассмотрена задача о распространении крови в сети из трех сосудов, на входе сети ставятся условияна входящий поток крови, на концах сети ставятсяу словия типа RCR. Решения сравниваются с эталонными, в качестве которых выступают результаты численного счета на основе разностной схемы Маккормака второго порядка (без вязких членов), показано, что оба подхода дают практически идентичные результаты.
Boundary conditions for lattice Boltzmann equations in applications to hemodynamics
Computer Research and Modeling, 2020, v. 12, no. 4, pp. 865-882We consider a one-dimensional three velocity kinetic lattice Boltzmann model, which represents a secondorder difference scheme for hydrodynamic equations. In the framework of kinetic theory this system describes the propagation and interaction of three types of particles. It has been shown previously that the lattice Boltzmann model with external virtual force is equivalent at the hydrodynamic limit to the one-dimensional hemodynamic equations for elastic vessels, this equivalence can be achieved with use of the Chapman – Enskog expansion. The external force in the model is responsible for the ability to adjust the functional dependence between the lumen area of the vessel and the pressure applied to the wall of the vessel under consideration. Thus, the form of the external force allows to model various elastic properties of the vessels. In the present paper the physiological boundary conditions are considered at the inlets and outlets of the arterial network in terms of the lattice Boltzmann variables. We consider the following boundary conditions: for pressure and blood flow at the inlet of the vascular network, boundary conditions for pressure and blood flow for the vessel bifurcations, wave reflection conditions (correspond to complete occlusion of the vessel) and wave absorption at the ends of the vessels (these conditions correspond to the passage of the wave without distortion), as well as RCR-type conditions, which are similar to electrical circuits and consist of two resistors (corresponding to the impedance of the vessel, at the end of which the boundary conditions are set and the friction forces in microcirculatory bed) and one capacitor (describing the elastic properties of arterioles). The numerical simulations were performed: the propagation of blood in a network of three vessels was considered, the boundary conditions for the blood flow were set at the entrance of the network, RCR boundary conditions were stated at the ends of the network. The solutions to lattice Boltzmann model are compared with the benchmark solutions (based on numerical calculations for second-order McCormack difference scheme without viscous terms), it is shown that the both approaches give very similar results.
-
Частотные, временные и пространственные изменения электроэнцефалограммы после COVID-19 при выполнении простого речевого задания
Компьютерные исследования и моделирование, 2023, т. 15, № 3, с. 691-701Используя анализ данных и применение нейронных сетей в нашей работе, мы выявили закономерности электрической активности мозга, характеризующие COVID-19. Нас интересовали частотные, временные и пространственные паттерны электрической активности у людей, перенесших COVID-19. Мы обнаружили преобладание паттернов $\alpha$-ритма в левом полушарии у здоровых людей по сравнению с людьми, переболевшими COVID-19. Более того, мы наблюдаем значительное снижение вклада левого полушария в области речевого центра у людей, перенесших COVID-19, при выполнении речевых заданий. Наши результаты показывают, что сигнал у здоровых людей более пространственно локализован и синхронизирован между полушариями при выполнении задач по сравнению с людьми, перенесшими COVID-19. Мы также наблюдали снижение низких частот в обоих полушариях после COVID-19. Электроэнцефалографические (ЭЭГ) паттерны COVID-19 обнаруживаются в необычной частотной области. То, что обычно считается шумом в ЭЭГ-данных, несет в себе информацию, по которой можно определить, переболел ли человек COVID-19. Эти паттерны можно интерпретировать как признаки десинхронизации полушарий, преждевременного старения мозга и стресса при выполнении простых задач по сравнению с людьми без COVID-19 в анамнезе. В нашей работе мы показали применимость нейронных сетей для выявления долгосрочных последствий COVID-19 на данные ЭЭГ. Кроме того, наши данные подтвердили гипотезу о тяжести последствий COVID-19, обнаруженных по ЭЭГ-данным. Представленные результаты функциональной активности мозга позволяют использовать методы машинного обучения на простых неинвазивных интерфейсах «мозг–компьютер» для выявления пост-COVID-синдрома и прогресса в нейрореабилитации.
Ключевые слова: COVID-19, интерфейс «мозг–компьютер», ЭЭГ, частотные паттерны, строение мозга, нейрореабилитация, постковидный синдром, глубокое обучение.
Frequency, time, and spatial electroencephalogram changes after COVID-19 during a simple speech task
Computer Research and Modeling, 2023, v. 15, no. 3, pp. 691-701We found a predominance of α-rhythm patterns in the left hemisphere in healthy people compared to people with COVID-19 history. Moreover, we observe a significant decrease in the left hemisphere contribution to the speech center area in people who have undergone COVID-19 when performing speech tasks.
Our findings show that the signal in healthy subjects is more spatially localized and synchronized between hemispheres when performing tasks compared to people who recovered from COVID-19. We also observed a decrease in low frequencies in both hemispheres after COVID-19.
EEG-patterns of COVID-19 are detectable in an unusual frequency domain. What is usually considered noise in electroencephalographic (EEG) data carries information that can be used to determine whether or not a person has had COVID-19. These patterns can be interpreted as signs of hemispheric desynchronization, premature brain ageing, and more significant brain strain when performing simple tasks compared to people who did not have COVID-19.
In our work, we have shown the applicability of neural networks in helping to detect the long-term effects of COVID-19 on EEG-data. Furthermore, our data following other studies supported the hypothesis of the severity of the long-term effects of COVID-19 detected on the EEG-data of EEG-based BCI. The presented findings of functional activity of the brain– computer interface make it possible to use machine learning methods on simple, non-invasive brain–computer interfaces to detect post-COVID syndrome and develop progress in neurorehabilitation.
-
Моделирование динамики политических позиций: плотность сети и шансы меньшинства
Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 785-796Некоторые информационные противоборства завершаются тем, что практически все общество принимает одну точку зрения, другие приводят к тому, что партия большинства получает лишь небольшой перевес над партией меньшинства. Возникает вопрос о том, какие сетевые характеристики общества способствуют тому, чтобы меньшинство могло сохранять некоторую значимую численность. С учетом того, что некоторые общества являются более связными, чем другие, в смысле того, что они имеют более высокую плотность социальных связей, данный вопрос конкретизируется следующим образом: какой эффект плотности социальных связей оказывается на шансы меньшинства сохранить не слишком малую численность? Способствует ли более высокая плотность более полной победе большинства или, наоборот, шансам меньшинства? Для изучения этого вопроса рассматривается информационное противоборство двух партий, называемых левой и правой, в населении, представленном в виде сети, узлами которой являются индивиды, а связи соответствуют их знакомству и описывают взаимное влияние. В каждый из дискретных моментов времени каждый индивид принимает решение о поддержке той или иной партии, основываясь на своей установке, т.е. предрасположенности к левой либо правой партии, и учитывая влияние своих соседей по сети. Влияние состоит в том, что каждый сосед с определенной вероятностью посылает данному индивиду сигнал в пользу той партии, которую сам в данный момент поддерживает. Если сосед меняет свою партийность, то он начинает агитировать данного индивида за свою «новую» партию. Такие процессы создают динамику, т.е. протяженное во времени изменение партийности индивидов. Продолжительность противоборства является экзогенно заданной, последний момент может быть условно ассоциирован с днем выборов. Изложенная модель численно реализована на безмасштабной сети. Проведены численные эксперименты для различных значений плотности сети. Ввиду наличия стохастических элементов в модели, для каждого значения плотности проведено 200 прогонов, для каждого из которых определена конечная численность сторонников каждой изпа ртий. Получено, что при увеличении плотности увеличиваются шансы того, что победившая точка зрения охватит практически все население. И наоборот, низкая плотность сети способствует шансам меньшинства сохранить значимую численность.
Ключевые слова: информационное противоборство, агентно-ориентированное моделирование, безмасштабные сети, плотность сети, эхо-камеры.
Modeling the dynamics of political positions: network density and the chances of minority
Computer Research and Modeling, 2024, v. 16, no. 3, pp. 785-796In some cases, information warfare results in almost whole population accepting one of two contesting points of view and rejecting the other. In other cases, however, the “majority party” gets only a small advantage over the “minority party”. The relevant question is which network characteristics of a population contribute to the minority being able to maintain some significant numbers. Given that some societies are more connected than others, in the sense that they have a higher density of social ties, this question is specified as follows: how does the density of social ties affect the chances of a minority to maintain a significant number? Does a higher density contribute to a landslide victory of majority, or to resistance of minority? To address this issue, we consider information warfare between two parties, called the Left and the Right, in the population, which is represented as a network, the nodes of which are individuals, and the connections correspond to their acquaintance and describe mutual influence. At each of the discrete points in time, each individual decides which party to support based on their attitude, i. e. predisposition to the Left or Right party and taking into account the influence of his network ties. The influence means here that each tie sends a cue with a certain probability to the individual in question in favor of the party that themselves currently support. If the tie switches their party affiliation, they begin to agitate the individual in question for their “new” party. Such processes create dynamics, i. e. the process of changing the partisanship of individuals. The duration of the warfare is exogenously set, with the final time point roughly associated with the election day. The described model is numerically implemented on a scale-free network. Numerical experiments have been carried out for various values of network density. Because of the presence of stochastic elements in the model, 200 runs were conducted for each density value, for each of which the final number of supporters of each of the parties was calculated. It is found that with higher density, the chances increase that the winner will cover almost the entire population. Conversely, low network density contributes to the chances of a minority to maintain significant numbers.
-
Модели сверточных нейронных сетей для классификации поврежденных вредителями хвойных деревьев на изображениях с беспилотных летательных аппаратов
Компьютерные исследования и моделирование, 2024, т. 16, № 5, с. 1271-1294В статье рассмотрена задача мультиклассификации хвойных деревьев с различной степенью поражения насекомыми-вредителями на изображениях, полученных с помощью беспилотных летательных аппаратов (БПЛА). Предложены три модификации классической сверточной нейронной сети U-Net для попиксельной классификации изображений пораженных деревьев пихты сибирской Abies sibirica и кедра сибирского Pinus sibirica. Первая модель Мо-U-Net вносит ряд изменений в классическую модель U-Net. Вторая и третья модели, названные MSC-U-Net и MSC-Res-U-Net, представляют собой ансамбли из трех моделей Мо-U-Net с разной глубиной и размерами входных изображений. В модели MSC-Res-U-Net также используются остаточные блоки. Нами созданы два датасета по изображениям с БПЛА пораженных вредителями деревьев Abies sibirica и Pinus Sibirica и обучены предложенные три модели с использованием функций потерь mIoULoss и Focal Loss. Затем исследовалась эффективность каждой обученной модели при классификации поврежденных деревьев Abies sibirica и Pinus sibirica. Результаты показали, что в случае использования функции потерь mIoULoss предложенные модели не пригодны для практического применения в лесной отрасли, поскольку не позволяют получить для отдельных классов деревьев этих пород точность классификации по метрике IoUс, превышающую пороговое значение 0,5. Однако в случае функции потерь Focal Loss модели MSC-Res-U-Net и Mo-U-Net, в отличие от третьей предложенной модели MSC-U-Net, для всех классов деревьев Abies sibirica и Pinus sibirica показывают высокую точность классификации (превышение порогового значения 0,5 по метрикам IoUс и mIoU). Эти результаты позволяют считать, что модели MSC-Res-U-Net и Mo-U-Net являются практически значимыми для специалистов лесной отрасли, поскольку позволяют выявлять хвойные деревья этих пород на ранней стадии их поражения вредителями.
Ключевые слова: пораженные вредителями хвойные деревья, пихта сибирская $Abies sibirica$, кедр сибирский $Pinus sibirica$, семантическая сегментация изображений, беспилотный летательный аппарат, модель сверточной нейронной сети U-Net.
Classification of pest-damaged coniferous trees in unmanned aerial vehicles images using convolutional neural network models
Computer Research and Modeling, 2024, v. 16, no. 5, pp. 1271-1294This article considers the task of multiclass classification of coniferous trees with varying degrees of damage by insect pests on images obtained using unmanned aerial vehicles (UAVs). We propose the use of convolutional neural networks (CNNs) for the classification of fir trees Abies sibirica and Siberian pine trees Pinus sibirica in unmanned aerial vehicles (UAV) imagery. In our approach, we develop three CNN models based on the classical U-Net architecture, designed for pixel-wise classification of images (semantic segmentation). The first model, Mo-U-Net, incorporates several changes to the classical U-Net model. The second and third models, MSC-U-Net and MSC-Res-U-Net, respectively, form ensembles of three Mo-U-Net models, each varying in depth and input image sizes. Additionally, the MSC-Res-U-Net model includes the integration of residual blocks. To validate our approach, we have created two datasets of UAV images depicting trees affected by pests, specifically Abies sibirica and Pinus sibirica, and trained the proposed three CNN models utilizing mIoULoss and Focal Loss as loss functions. Subsequent evaluation focused on the effectiveness of each trained model in classifying damaged trees. The results obtained indicate that when mIoULoss served as the loss function, the proposed models fell short of practical applicability in the forestry industry, failing to achieve classification accuracy above the threshold value of 0.5 for individual classes of both tree species according to the IoU metric. However, under Focal Loss, the MSC-Res-U-Net and Mo-U-Net models, in contrast to the third proposed model MSC-U-Net, exhibited high classification accuracy (surpassing the threshold value of 0.5) for all classes of Abies sibirica and Pinus sibirica trees. Thus, these results underscore the practical significance of the MSC-Res-U-Net and Mo-U-Net models for forestry professionals, enabling accurate classification and early detection of pest outbreaks in coniferous trees.
-
Хранилища баз данных в обработке в облаке
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 493-498Хранение — это существенная и дорогая часть облачных вычислений как с точки зрения требований сети, так и организации доступа к данным, поэтому выбор архитектуры хранения может быть критическим для любого приложения. В этой работе мы сможем посмотреть на типы облачных архитектур для обработки и хранения данных, основанных на доказанной технологии хранения в сети масштаба пред- приятия. Преимущество облачных вычислений — это способность визуализировать и разделять ресурсы среди различных приложений для наилучшего использования сервера. Мы обсуждаем и оцениваем распределенную обработку данных, архитектуры баз данных для облачных вычислений и очередь баз данных в локальной сети и для условий реального времени.
Ключевые слова: Хранилища баз данных, обработка в облаке, архитектуры хранения, облачная архитектура, обработка и хранение данных.Просмотров за год: 3.Storage is the essential and expensive part of cloud computation both from the point of view of network requirements and data access organization. So the choice of storage architecture can be crucial for any application. In this article we can look at the types of cloud architectures for data processing and data storage based on the proven technology of enterprise storage. The advantage of cloud computing is the ability to virtualize and share resources among different applications for better server utilization. We are discussing and evaluating distributed data processing, database architectures for cloud computing and database query in the local network and for real time conditions.
-
Метод контрастного семплирования для предсказания библиографических ссылок
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1317-1336В работе рассматривается задача поиска в научной статье фрагментов с недостающими библиографическими ссылками с помощью автоматической бинарной классификации. Для обучения модели предложен метод контрастного семплирования, новшеством которого является рассмотрение контекста ссылки с учетом границ фрагмента, максимально влияющего на вероятность нахождения в нем библиографической ссылки. Обучающая выборка формировалась из автоматически размеченных семплов — фрагментов из трех предложений с метками классов «без ссылки» и «со ссылкой», удовлетворяющих требованию контрастности: семплы разных классов дистанцируются в исходном тексте. Пространство признаков строилось автоматически по статистике встречаемости термов и расширялось за счет конструирования дополнительных признаков — выделенных в тексте сущностей ФИО, чисел, цитат и аббревиатур.
Проведена серия экспериментов на архивах научных журналов «Правоприменение» (273 статьи) и «Журнал инфектологии» (684 статьи). Классификация осуществлялась моделями Nearest Neighbours, RBF SVM, Random Forest, Multilayer Perceptron, с подбором оптимальных гиперпараметров для каждого классификатора.
Эксперименты подтвердили выдвинутую гипотезу. Наиболее высокую точность показал нейросетевой классификатор (95%), уступающий по скорости линейному, точность которого при контрастном семплировании также оказалась высока (91–94 %). Полученные значения превосходят результаты, опубликованные для задач NER и анализа тональности на данных со сравнимыми характеристиками. Высокая вычислительная эффективность предложенного метода позволяет встраивать его в прикладные системы и обрабатывать документы в онлайн-режиме.
Ключевые слова: контрастное семплирование, анализ цитирования, передискретизация данных, предсказание библиографических ссылок, текстовая классификация, искусственные нейронный сети.
Bibliographic link prediction using contrast resampling technique
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1317-1336The paper studies the problem of searching for fragments with missing bibliographic links in a scientific article using automatic binary classification. To train the model, we propose a new contrast resampling technique, the innovation of which is the consideration of the context of the link, taking into account the boundaries of the fragment, which mostly affects the probability of presence of a bibliographic links in it. The training set was formed of automatically labeled samples that are fragments of three sentences with class labels «without link» and «with link» that satisfy the requirement of contrast: samples of different classes are distanced in the source text. The feature space was built automatically based on the term occurrence statistics and was expanded by constructing additional features — entities (names, numbers, quotes and abbreviations) recognized in the text.
A series of experiments was carried out on the archives of the scientific journals «Law enforcement review» (273 articles) and «Journal Infectology» (684 articles). The classification was carried out by the models Nearest Neighbors, RBF SVM, Random Forest, Multilayer Perceptron, with the selection of optimal hyperparameters for each classifier.
Experiments have confirmed the hypothesis put forward. The highest accuracy was reached by the neural network classifier (95%), which is however not as fast as the linear one that showed also high accuracy with contrast resampling (91–94%). These values are superior to those reported for NER and Sentiment Analysis on comparable data. The high computational efficiency of the proposed method makes it possible to integrate it into applied systems and to process documents online.
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
Ключевые слова: криптовалюты, Twitter, машинное обучение, обработка естественного языка, векторизация, dense модель, логистическая регрессия, случайный лес, KNN, наивный байесовский классификатор.
Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"