Текущий выпуск Номер 1, 2025 Том 17

Все выпуски

Результаты поиска по 'information search':
Найдено статей: 14
  1. От редакции
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1533-1538
    Editor’s note
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1533-1538
  2. Бергер А.И., Гуда С.А.
    Свойства алгоритмов поиска оптимальных порогов для задач многозначной классификации
    Компьютерные исследования и моделирование, 2022, т. 14, № 6, с. 1221-1238

    Модели многозначной классификации возникают в различных сферах современной жизни, что объясняется всё большим количеством информации, требующей оперативного анализа. Одним из математических методов решения этой задачи является модульный метод, на первом этапе которого для каждого класса строится некоторая ранжирующая функция, упорядочивающая некоторым образом все объекты, а на втором этапе для каждого класса выбирается оптимальное значение порога, объекты с одной стороны которого относят к текущему классу, а с другой — нет. Пороги подбираются так, чтобы максимизировать целевую метрику качества. Алгоритмы, свойства которых изучаются в настоящей статье, посвящены второму этапу модульного подхода — выбору оптимального вектора порогов. Этот этап становится нетривиальным в случае использования в качестве целевой метрики качества $F$-меры от средней точности и полноты, так как она не допускает независимую оптимизацию порога в каждом классе. В задачах экстремальной многозначной классификации число классов может достигать сотен тысяч, поэтому исходная оптимизационная задача сводится к задаче поиска неподвижной точки специальным образом введенного отображения $\boldsymbol V$, определенного на единичном квадрате на плоскости средней точности $P$ и полноты $R$. Используя это отображение, для оптимизации предлагаются два алгоритма: метод линеаризации $F$-меры и метод анализа области определения отображения $\boldsymbol V$. На наборах данных многозначной классификации разного размера и природы исследуются свойства алгоритмов, в частности зависимость погрешности от числа классов, от параметра $F$-меры и от внутренних параметров методов. Обнаружена особенность работы обоих алгоритмов для задач с областью определения отображения $\boldsymbol V$, содержащей протяженные линейные участки границ. В случае когда оптимальная точка расположена в окрестности этих участков, погрешности обоих методов не уменьшаются с увеличением количества классов. При этом метод линеаризации достаточно точно определяет аргумент оптимальной точки, а метод анализа области определения отображения $\boldsymbol V$ — полярный радиус.

    Berger A.I., Guda S.A.
    Optimal threshold selection algorithms for multi-label classification: property study
    Computer Research and Modeling, 2022, v. 14, no. 6, pp. 1221-1238

    Multi-label classification models arise in various areas of life, which is explained by an increasing amount of information that requires prompt analysis. One of the mathematical methods for solving this problem is a plug-in approach, at the first stage of which, for each class, a certain ranking function is built, ordering all objects in some way, and at the second stage, the optimal thresholds are selected, the objects on one side of which are assigned to the current class, and on the other — to the other. Thresholds are chosen to maximize the target quality measure. The algorithms which properties are investigated in this article are devoted to the second stage of the plug-in approach which is the choice of the optimal threshold vector. This step becomes non-trivial if the $F$-measure of average precision and recall is used as the target quality assessment since it does not allow independent threshold optimization in each class. In problems of extreme multi-label classification, the number of classes can reach hundreds of thousands, so the original optimization problem is reduced to the problem of searching a fixed point of a specially introduced transformation $\boldsymbol V$, defined on a unit square on the plane of average precision $P$ and recall $R$. Using this transformation, two algorithms are proposed for optimization: the $F$-measure linearization method and the method of $\boldsymbol V$ domain analysis. The properties of algorithms are studied when applied to multi-label classification data sets of various sizes and origin, in particular, the dependence of the error on the number of classes, on the $F$-measure parameter, and on the internal parameters of methods under study. The peculiarity of both algorithms work when used for problems with the domain of $\boldsymbol V$, containing large linear boundaries, was found. In case when the optimal point is located in the vicinity of these boundaries, the errors of both methods do not decrease with an increase in the number of classes. In this case, the linearization method quite accurately determines the argument of the optimal point, while the method of $\boldsymbol V$ domain analysis — the polar radius.

  3. Adekotujo A.S., Enikuomehin T., Aribisala B., Mazzara M., Zubair A.F.
    Computational treatment of natural language text for intent detection
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1539-1554

    Intent detection plays a crucial role in task-oriented conversational systems. To understand the user’s goal, the system relies on its intent detector to classify the user’s utterance, which may be expressed in different forms of natural language, into intent classes. However, lack of data, and the efficacy of intent detection systems has been hindered by the fact that the user’s intent text is typically characterized by short, general sentences and colloquial expressions. The process of algorithmically determining user intent from a given statement is known as intent detection. The goal of this study is to develop an intent detection model that will accurately classify and detect user intent. The model calculates the similarity score of the three models used to determine their similarities. The proposed model uses Contextual Semantic Search (CSS) capabilities for semantic search, Latent Dirichlet Allocation (LDA) for topic modeling, the Bidirectional Encoder Representations from Transformers (BERT) semantic matching technique, and the combination of LDA and BERT for text classification and detection. The dataset acquired is from the broad twitter corpus (BTC) and comprises various meta data. To prepare the data for analysis, a pre-processing step was applied. A sample of 1432 instances were selected out of the 5000 available datasets because manual annotation is required and could be time-consuming. To compare the performance of the model with the existing model, the similarity scores, precision, recall, f1 score, and accuracy were computed. The results revealed that LDA-BERT achieved an accuracy of 95.88% for intent detection, BERT with an accuracy of 93.84%, and LDA with an accuracy of 92.23%. This shows that LDA-BERT performs better than other models. It is hoped that the novel model will aid in ensuring information security and social media intelligence. For future work, an unsupervised LDA-BERT without any labeled data can be studied with the model.

    Adekotujo A.S., Enikuomehin T., Aribisala B., Mazzara M., Zubair A.F.
    Computational treatment of natural language text for intent detection
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1539-1554

    Intent detection plays a crucial role in task-oriented conversational systems. To understand the user’s goal, the system relies on its intent detector to classify the user’s utterance, which may be expressed in different forms of natural language, into intent classes. However, lack of data, and the efficacy of intent detection systems has been hindered by the fact that the user’s intent text is typically characterized by short, general sentences and colloquial expressions. The process of algorithmically determining user intent from a given statement is known as intent detection. The goal of this study is to develop an intent detection model that will accurately classify and detect user intent. The model calculates the similarity score of the three models used to determine their similarities. The proposed model uses Contextual Semantic Search (CSS) capabilities for semantic search, Latent Dirichlet Allocation (LDA) for topic modeling, the Bidirectional Encoder Representations from Transformers (BERT) semantic matching technique, and the combination of LDA and BERT for text classification and detection. The dataset acquired is from the broad twitter corpus (BTC) and comprises various meta data. To prepare the data for analysis, a pre-processing step was applied. A sample of 1432 instances were selected out of the 5000 available datasets because manual annotation is required and could be time-consuming. To compare the performance of the model with the existing model, the similarity scores, precision, recall, f1 score, and accuracy were computed. The results revealed that LDA-BERT achieved an accuracy of 95.88% for intent detection, BERT with an accuracy of 93.84%, and LDA with an accuracy of 92.23%. This shows that LDA-BERT performs better than other models. It is hoped that the novel model will aid in ensuring information security and social media intelligence. For future work, an unsupervised LDA-BERT without any labeled data can be studied with the model.

  4. Худхур Х.М., Халил И.Х.
    Удаление шума из изображений с использованием предлагаемого алгоритма трехчленного сопряженного градиента
    Компьютерные исследования и моделирование, 2024, т. 16, № 4, с. 841-853

    Алгоритмы сопряженных градиентов представляют собой важный класс алгоритмов безусловной оптимизации с хорошей локальной и глобальной сходимостью и скромными требованиями к памяти. Они занимают промежуточное место между методом наискорейшего спуска и методом Ньютона, поскольку требуют вычисленияи хранения только первых производных и как правило быстрее методов наискорейшего спуска. В данном исследовании рассмотрен новый подход в задаче восстановления изображений. Он наследует одновременно методу сопряженных градиентов Флетчера – Ривза (FR) и трехкомпонентному методу сопряженных градиентов (TTCG), и поэтому назван авторами гибридным трехкомпонентным методом сопряженных градиентов (HYCGM). Новое направление спуска в нем учитывает текущее направления градиента, предыдущее направления спуска и градиент из предыдущей итерации. Показано, что новый алгоритм обладает свойствами глобальной сходимости и монотонности при использовании неточного линейного поиска типа Вулфа при некоторых стандартных предположениях. Для подтверждения эффективности предложенного алгоритма приводятся результаты численных экспериментов предложенного метода в сравнении с классическим методом Флетчера – Ривза (FR) и трехкомпонентным методом Флетчера – Ривза (TTFR).

    Khudhur H.M., Halil I.H.
    Noise removal from images using the proposed three-term conjugate gradient algorithm
    Computer Research and Modeling, 2024, v. 16, no. 4, pp. 841-853

    Conjugate gradient algorithms represent an important class of unconstrained optimization algorithms with strong local and global convergence properties and simple memory requirements. These algorithms have advantages that place them between the steep regression method and Newton’s algorithm because they require calculating the first derivatives only and do not require calculating and storing the second derivatives that Newton’s algorithm needs. They are also faster than the steep descent algorithm, meaning that they have overcome the slow convergence of this algorithm, and it does not need to calculate the Hessian matrix or any of its approximations, so it is widely used in optimization applications. This study proposes a novel method for image restoration by fusing the convex combination method with the hybrid (CG) method to create a hybrid three-term (CG) algorithm. Combining the features of both the Fletcher and Revees (FR) conjugate parameter and the hybrid Fletcher and Revees (FR), we get the search direction conjugate parameter. The search direction is the result of concatenating the gradient direction, the previous search direction, and the gradient from the previous iteration. We have shown that the new algorithm possesses the properties of global convergence and descent when using an inexact search line, relying on the standard Wolfe conditions, and using some assumptions. To guarantee the effectiveness of the suggested algorithm and processing image restoration problems. The numerical results of the new algorithm show high efficiency and accuracy in image restoration and speed of convergence when used in image restoration problems compared to Fletcher and Revees (FR) and three-term Fletcher and Revees (TTFR).

  5. Базарова А.И., Безносиков А.Н., Гасников А.В.
    Линейно сходящиеся безградиентные методы для минимизации параболической аппроксимации
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 239-255

    Нахождение глобального минимума невыпуклых функций — одна из ключевых и самых сложных проблем современной оптимизации. В этой работе мы рассматриваем отдельные классы невыпуклых задач, которые имеют четкий и выраженный глобальный минимум.

    В первой части статьи мы рассматриваем два класса «хороших» невыпуклых функций, которые могут быть ограничены снизу и сверху параболической функцией. Такой класс задач не исследован широко в литературе, хотя является довольно интересным с прикладной точки зрения. Более того, для таких задач методы первого и более высоких порядков могут быть абсолютно неэффективны при поиске глобального минимума. Это связано с тем, что функция может сильно осциллировать или может быть сильно зашумлена. Поэтому наши новые методы используют информацию только нулевого порядка и основаны на поиске по сетке. Размер и мелкость этой сетки, а значит, и гарантии скорости сходимости и оракульной сложности зависят от «хорошести» задачи. В частности, мы показываем, если функция зажата довольно близкими параболическими функциями, то сложность не зависит от размерности задачи. Мы показываем, что наши новые методы сходятся с линейной скоростью сходимости $\log(1/\varepsilon)$ к глобальному минимуму на кубе.

    Во второй части статьи мы рассматриваем задачу невыпуклой оптимизации с другого ракурса. Мы предполагаем, что целевая минимизируемая функция есть сумма выпуклой квадратичной задачи и невыпуклой «шумовой» функции, пропорциональной по модулю расстоянию до глобального решения. Рассмотрение функций с такими предположениями о шуме для методов нулевого порядка является новым в литературе. Для такой задачи мы используем классический безградиентный подход с аппроксимацией градиента через конечную разность. Мы показываем, как можно свести анализ сходимости для нашей задачи к стандартному анализу для задач выпуклой оптимизации. В частности, и для таких задач мы добиваемся линейной скорости сходимости.

    Экспериментальные результаты подтверждают работоспособность и практическую применимость всех полученных методов.

    Bazarova A.I., Beznosikov A.N., Gasnikov A.V.
    Linearly convergent gradient-free methods for minimization of parabolic approximation
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 239-255

    Finding the global minimum of a nonconvex function is one of the key and most difficult problems of the modern optimization. In this paper we consider special classes of nonconvex problems which have a clear and distinct global minimum.

    In the first part of the paper we consider two classes of «good» nonconvex functions, which can be bounded below and above by a parabolic function. This class of problems has not been widely studied in the literature, although it is rather interesting from an applied point of view. Moreover, for such problems first-order and higher-order methods may be completely ineffective in finding a global minimum. This is due to the fact that the function may oscillate heavily or may be very noisy. Therefore, our new methods use only zero-order information and are based on grid search. The size and fineness of this grid, and hence the guarantee of convergence speed and oracle complexity, depend on the «goodness» of the problem. In particular, we show that if the function is bounded by fairly close parabolic functions, then the complexity is independent of the dimension of the problem. We show that our new methods converge with a linear convergence rate $\log(1/\varepsilon)$ to a global minimum on the cube.

    In the second part of the paper, we consider the nonconvex optimization problem from a different angle. We assume that the target minimizing function is the sum of the convex quadratic problem and a nonconvex «noise» function proportional to the distance to the global solution. Considering functions with such noise assumptions for zero-order methods is new in the literature. For such a problem, we use the classical gradient-free approach with gradient approximation through finite differences. We show how the convergence analysis for our problems can be reduced to the standard analysis for convex optimization problems. In particular, we achieve a linear convergence rate for such problems as well.

    Experimental results confirm the efficiency and practical applicability of all the obtained methods.

  6. Черемисина Е.Н., Сеннер А.Е.
    Применение ГИС ИНТЕГРО в задачах поиска месторождений нефти и газа
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 439-444

    В основу системы интегрированной интерпретации геофизических данных при изучении глубинного строения Земли положена система ГИС ИНТЕГРО, являющаяся геоинформационной системой функционирования разнообразных вычислительных и аналитических приложений при решении различных геологических задач. ГИС ИНТЕГРО включает в себя многообразные интерфейсы, позволяющие изменять форму представления данных (растр, вектор, регулярная и нерегулярная сеть наблюдений), блок преобразования картографических проекций, а также прикладные блоки, включающие блок интегрированного анализа данных и решения прогнозно-диагностических задач.

    Методический подход базируется на интеграции и комплексном анализе геофизических данных по региональным профилям, геофизических потенциальных полей и дополнительной геологической информации на изучаемую территорию.

    Аналитическое обеспечение включает пакеты трансформаций, фильтрации, статистической обработки полей, расчета характеристик, выделения линеаментов, решения прямых и обратных задач, интегрирования геоинформации.

    Технология и программно-аналитическое обеспечение апробировались при решении задач тектонического районирования в масштабах 1:200000, 1:1000000 в Якутии, Казахстане, Ростовской области, изучения глубинного строения по региональным профилям 1:ЕВ, 1-СБ, 2-СБ, 3-СБ и 2-ДВ, прогноза нефтегазоносности в районах Восточной Сибири, Бразилии.

    Cheremisina E.N., Senner A.E.
    The use of GIS INTEGRO in searching tasks for oil and gas deposits
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 439-444

    GIS INTEGRO is the geo-information software system forming the basis for the integrated interpretation of geophysical data in researching a deep structure of Earth. GIS INTEGRO combines a variety of computational and analytical applications for the solution of geological and geophysical problems. It includes various interfaces that allow you to change the form of representation of data (raster, vector, regular and irregular network of observations), the conversion unit of map projections, application blocks, including block integrated data analysis and decision prognostic and diagnostic tasks.

    The methodological approach is based on integration and integrated analysis of geophysical data on regional profiles, geophysical potential fields and additional geological information on the study area. Analytical support includes packages transformations, filtering, statistical processing, calculation, finding of lineaments, solving direct and inverse tasks, integration of geographic information.

    Technology and software and analytical support was tested in solving problems tectonic zoning in scale 1:200000, 1:1000000 in Yakutia, Kazakhstan, Rostov region, studying the deep structure of regional profiles 1:S, 1-SC, 2-SAT, 3-SAT and 2-DV, oil and gas forecast in the regions of Eastern Siberia, Brazil.

    The article describes two possible approaches of parallel calculations for data processing 2D or 3D nets in the field of geophysical research. As an example presented realization in the environment of GRID of the application software ZondGeoStat (statistical sensing), which create 3D net model on the basis of data 2d net. The experience has demonstrated the high efficiency of the use of environment of GRID during realization of calculations in field of geophysical researches.

    Просмотров за год: 4.
  7. Коганов А.В., Ракчеева Т.А., Приходько Д.И.
    Сравнительный анализ адаптации человека к росту объема зрительной информации в задачах распознавания формальных символов и содержательных изображений
    Компьютерные исследования и моделирование, 2021, т. 13, № 3, с. 571-586

    Мы описываем инженерно-психологический эксперимент, продолжающий исследование способов адаптации человека к росту сложности логических задач методом предъявления серий задач нарастающей сложности, которая определяется объемом исходных данных. Задачи требуют вычислений в ассоциативной или неассоциативной системе операций. По характеру изменения времени решения задачи в зависимости от числа необходимых операций можно делать вывод о чисто последовательном способе решения задач или о подключении к решению дополнительных ресурсов мозга в параллельном режиме. В ранее опубликованной экспериментальной работе человек в процессе решения ассоциативной задачи распознавал цветные картинки с содержательными изображениями. В новом исследовании аналогичная задача решается для абстрактных монохромных геометрических фигур. Анализ результата показал, что для второго случая значительно снижается вероятность перехода испытуемого на параллельный способ обработки зрительной информации. Метод исследования основан на предъявлении человеку задач двух типов. Один тип задач содержит ассоциативные вычисления и допускает параллельный алгоритм решения. Другой тип задач контрольный, содержит задачи, в которых вычисления неассоциативные и параллельные алгоритмы решения неэффективны. Задача распознавания и поиска заданного объекта ассоциативна. Параллельная стратегия значительно ускоряет решение при сравнительно малых дополнительных затратах ресурсов. В качестве контрольной серии задач (для отделения параллельной работы от ускорения последовательного алгоритма) используется, как и в предыдущем эксперименте, неассоциативная задача сравнения в циклической арифметике, представленной в наглядной форме игры «камень, ножницы, бумага». В этой задаче параллельный алгоритм требует работы большого числа процессоров с малым коэффициентом эффективности. Поэтому переход человека на параллельный алгоритм решения этой задачи практически исключен и ускорение обработки входной информации возможно только путем повышения быстродействия. Сравнение зависимости времени решения от объема исходных данных для двух типов задач позволяет выявить четыре типа стратегий адаптации к росту сложности задачи: равномерная последовательная, ускоренная последовательная, параллельные вычисления (там, где это возможно) или неопределенная (для данного метода) стратегия. Уменьшение части испытуемых, которые переходят на параллельную стратегию при кодировании входной информации формальными изображениями, показывает эффективность кодов, вызывающих предметные ассоциации. Они повышают скорость восприятия и переработки информации человеком. Статья содержит предварительную математическую модель, которая объясняет это явление. Она основана на появлении второго набора исходных данных, который возникает у человека в результате узнавания изображенных предметов.

    Koganov A.V., Rakcheeva T.A., Prikhodko D.I.
    Comparative analysis of human adaptation to the growth of visual information in the tasks of recognizing formal symbols and meaningful images
    Computer Research and Modeling, 2021, v. 13, no. 3, pp. 571-586

    We describe an engineering-psychological experiment that continues the study of ways to adapt a person to the increasing complexity of logical problems by presenting a series of problems of increasing complexity, which is determined by the volume of initial data. Tasks require calculations in an associative or non-associative system of operations. By the nature of the change in the time of solving the problem, depending on the number of necessary operations, we can conclude that a purely sequential method of solving problems or connecting additional brain resources to the solution in parallel mode. In a previously published experimental work, a person in the process of solving an associative problem recognized color images with meaningful images. In the new study, a similar problem is solved for abstract monochrome geometric shapes. Analysis of the result showed that for the second case, the probability of the subject switching to a parallel method of processing visual information is significantly reduced. The research method is based on presenting a person with two types of tasks. One type of problem contains associative calculations and allows a parallel solution algorithm. Another type of problem is the control one, which contains problems in which calculations are not associative and parallel algorithms are ineffective. The task of recognizing and searching for a given object is associative. A parallel strategy significantly speeds up the solution with relatively small additional resources. As a control series of problems (to separate parallel work from the acceleration of a sequential algorithm), we use, as in the previous experiment, a non-associative comparison problem in cyclic arithmetic, presented in the visual form of the game “rock, paper, scissors”. In this problem, the parallel algorithm requires a large number of processors with a small efficiency coefficient. Therefore, the transition of a person to a parallel algorithm for solving this problem is almost impossible, and the acceleration of processing input information is possible only by increasing the speed. Comparing the dependence of the solution time on the volume of source data for two types of problems allows us to identify four types of strategies for adapting to the increasing complexity of the problem: uniform sequential, accelerated sequential, parallel computing (where possible), or undefined (for this method) strategy. The Reducing of the number of subjects, who switch to a parallel strategy when encoding input information with formal images, shows the effectiveness of codes that cause subject associations. They increase the speed of human perception and processing of information. The article contains a preliminary mathematical model that explains this phenomenon. It is based on the appearance of a second set of initial data, which occurs in a person as a result of recognizing the depicted objects.

  8. Исследование логических детерминированных клеточноавтоматных моделей популяционной динамики позволяет выявлять детальные индивидуально-ориентированные механизмы функционирования экосистем. Выявление таких механизмов актуально в связи с проблемами, возникающими вследствие переэксплуатации природных ресурсов, загрязнения окружающей среды и изменения климата. Классические модели популяционной динамики имеют феноменологическую природу, так как являются «черными ящиками». Феноменологические модели принципиально затрудняют исследование локальных механизмов функционирования экосистем. Мы исследовали роль плодовитости и длительности восстановления ресурсов в механизмах популяционного роста, используя четыре модели экосистемы с одним видом. Эти модели являются логическими детерминированными клеточными автоматами и основаны на физической аксиоматике возбудимой среды с восстановлением. Было выявлено, что при увеличении времени восстановления ресурсов экосистемы происходит катастрофическая гибель популяции. Показано также, что большая плодовитость ускоряет исчезновения популяции. Исследованные механизмы важны для понимания механизмов устойчивого развития экосистем и сохранения биологического разнообразия. Обсуждаются перспективы представленного модельного подхода как метода прозрачного многоуровневого моделирования сложных систем.

    Kalmykov L.V., Kalmykov V.L.
    Investigation of individual-based mechanisms of single-species population dynamics by logical deterministic cellular automata
    Computer Research and Modeling, 2015, v. 7, no. 6, pp. 1279-1293

    Investigation of logical deterministic cellular automata models of population dynamics allows to reveal detailed individual-based mechanisms. The search for such mechanisms is important in connection with ecological problems caused by overexploitation of natural resources, environmental pollution and climate change. Classical models of population dynamics have the phenomenological nature, as they are “black boxes”. Phenomenological models fundamentally complicate research of detailed mechanisms of ecosystem functioning. We have investigated the role of fecundity and duration of resources regeneration in mechanisms of population growth using four models of ecosystem with one species. These models are logical deterministic cellular automata and are based on physical axiomatics of excitable medium with regeneration. We have modeled catastrophic death of population arising from increasing of resources regeneration duration. It has been shown that greater fecundity accelerates population extinction. The investigated mechanisms are important for understanding mechanisms of sustainability of ecosystems and biodiversity conservation. Prospects of the presented modeling approach as a method of transparent multilevel modeling of complex systems are discussed.

    Просмотров за год: 16. Цитирований: 3 (РИНЦ).
  9. Петров А.П., Подлипская О.Г., Прончев Г.Б.
    Моделирование динамики общественного внимания к протяженным процессам на примере пандемии COVID-19
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1131-1141

    Изучается динамика общественного внимания к эпидемии COVID-19 в ряде стран. При этом в качестве индикатора общественного внимания взято количество поисковых запросов в Google, сделанных в течение суток пользователями изданной страны. В эмпирической части работы рассмотрены данные относительно количества запросов и количества новых заболевших для ряда стран. Показано, что во всех рассмотренных странах максимум общественного внимания наступил ранее максимума количества новых зараженных за день. Тем самым обнаружено, что в течение некоторого периода времени рост эпидемии происходит параллельно со спадом общественного внимания к ней. Также показано, что спад количества запросов описывается экспоненциальной функцией времени. Для того чтобы описать выявленную эмпирическую зависимость, предложена математическая модель, представляющая собой модификацию модели спада внимания после одноразового политического события. Модель развивает подход, рассматривающий принятие решения индивидом как членом социума, в котором происходит информационный процесс. В рамках этого подхода предполагается, что решение индивида о том, делать ли в данный день поисковый запрос на тему COVID, формируется на основании двух факторов. Один изн их — это установка, отражающая долгосрочную заинтересованность индивида в данной теме и аккумулирующая предыдущий опыт индивида, его культурные предпочтения, социальное и экономическое положение. Второй — динамический фактор общественного внимания к данному процессу — изменяется в течение рассматриваемого процесса под влиянием информационных стимулов. Применительно к рассматриваемой тематике информационные стимулы связны с эпидемической динамикой. Пове- денческая гипотеза состоит в том, что если в некоторый день сумма установки и динамического фактора превышает некоторую пороговую величину, то в этот день индивид делает поисковый запрос на тему COVID. Общая логика состоит в том, что чем выше скорость роста числа заболевших, тем выше информационный стимул, тем медленнее убывает общественное внимание к пандемии. Таким образом, построенная модель позволила соотнести скорость экспоненциального убывания количества запросов со скоростью роста количества заболевших. Обнаруженная с помощью модели закономерность проверена на эмпирических данных. Получено, что статистика Стьюдента равна 4,56, что позволяет отклонить гипотезу об отсутствии корреляционной связи с уровнем значимости 0,01.

    Petrov A.P., Podlipskaia O.G., Pronchev G.B.
    Modeling the dynamics of public attention to extended processes on the example of the COVID-19 pandemic
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1131-1141

    The dynamics of public attention to COVID-19 epidemic is studied. The level of public attention is described by the daily number of search requests in Google made by users from a given country. In the empirical part of the work, data on the number of requests and the number of infected cases for a number of countries are considered. It is shown that in all cases the maximum of public attention occurs earlier than the maximum daily number of newly infected individuals. Thus, for a certain period of time, the growth of the epidemics occurs in parallel with the decline in public attention to it. It is also shown that the decline in the number of requests is described by an exponential function of time. In order to describe the revealed empirical pattern, a mathematical model is proposed, which is a modification of the model of the decline in attention after a one-time political event. The model develops the approach that considers decision-making by an individual as a member of the society in which the information process takes place. This approach assumes that an individual’s decision about whether or not to make a request on a given day about COVID is based on two factors. One of them is an attitude that reflects the individual’s long-term interest in a given topic and accumulates the individual’s previous experience, cultural preferences, social and economic status. The second is the dynamic factor of public attention to the epidemic, which changes during the process under consideration under the influence of informational stimuli. With regard to the subject under consideration, information stimuli are related to epidemic dynamics. The behavioral hypothesis is that if on some day the sum of the attitude and the dynamic factor exceeds a certain threshold value, then on that day the individual in question makes a search request on the topic of COVID. The general logic is that the higher the rate of infection growth, the higher the information stimulus, the slower decreases public attention to the pandemic. Thus, the constructed model made it possible to correlate the rate of exponential decrease in the number of requests with the rate of growth in the number of cases. The regularity found with the help of the model was tested on empirical data. It was found that the Student’s statistic is 4.56, which allows us to reject the hypothesis of the absence of a correlation with a significance level of 0.01.

  10. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Zakharova E.M.
    Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170

    Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.

Страницы: следующая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.