Текущий выпуск Номер 6, 2025 Том 17

Все выпуски

Результаты поиска по 'text analysis':
Найдено статей: 21
  1. От редакции
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1533-1538
    Editor’s note
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1533-1538
  2. Adekotujo A.S., Enikuomehin T., Aribisala B., Mazzara M., Zubair A.F.
    Computational treatment of natural language text for intent detection
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1539-1554

    text-align: justify;">Intent detection plays a crucial role in task-oriented conversational systems. To understand the user’s goal, the system relies on its intent detector to classify the user’s utterance, which may be expressed in different forms of natural language, into intent classes. However, lack of data, and the efficacy of intent detection systems has been hindered by the fact that the user’s intent text is typically characterized by short, general sentences and colloquial expressions. The process of algorithmically determining user intent from a given statement is known as intent detection. The goal of this study is to develop an intent detection model that will accurately classify and detect user intent. The model calculates the similarity score of the three models used to determine their similarities. The proposed model uses Contextual Semantic Search (CSS) capabilities for semantic search, Latent Dirichlet Allocation (LDA) for topic modeling, the Bidirectional Encoder Representations from Transformers (BERT) semantic matching technique, and the combination of LDA and BERT for text classification and detection. The dataset acquired is from the broad twitter corpus (BTC) and comprises various meta data. To prepare the data for analysis, a pre-processing step was applied. A sample of 1432 instances were selected out of the 5000 available datasets because manual annotation is required and could be time-consuming. To compare the performance of the model with the existing model, the similarity scores, precision, recall, f1 score, and accuracy were computed. The results revealed that LDA-BERT achieved an accuracy of 95.88% for intent detection, BERT with an accuracy of 93.84%, and LDA with an accuracy of 92.23%. This shows that LDA-BERT performs better than other models. It is hoped that the novel model will aid in ensuring information security and social media intelligence. For future work, an unsupervised LDA-BERT without any labeled data can be studied with the model.

    Adekotujo A.S., Enikuomehin T., Aribisala B., Mazzara M., Zubair A.F.
    Computational treatment of natural language text for intent detection
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1539-1554

    text-align: justify;">Intent detection plays a crucial role in task-oriented conversational systems. To understand the user’s goal, the system relies on its intent detector to classify the user’s utterance, which may be expressed in different forms of natural language, into intent classes. However, lack of data, and the efficacy of intent detection systems has been hindered by the fact that the user’s intent text is typically characterized by short, general sentences and colloquial expressions. The process of algorithmically determining user intent from a given statement is known as intent detection. The goal of this study is to develop an intent detection model that will accurately classify and detect user intent. The model calculates the similarity score of the three models used to determine their similarities. The proposed model uses Contextual Semantic Search (CSS) capabilities for semantic search, Latent Dirichlet Allocation (LDA) for topic modeling, the Bidirectional Encoder Representations from Transformers (BERT) semantic matching technique, and the combination of LDA and BERT for text classification and detection. The dataset acquired is from the broad twitter corpus (BTC) and comprises various meta data. To prepare the data for analysis, a pre-processing step was applied. A sample of 1432 instances were selected out of the 5000 available datasets because manual annotation is required and could be time-consuming. To compare the performance of the model with the existing model, the similarity scores, precision, recall, f1 score, and accuracy were computed. The results revealed that LDA-BERT achieved an accuracy of 95.88% for intent detection, BERT with an accuracy of 93.84%, and LDA with an accuracy of 92.23%. This shows that LDA-BERT performs better than other models. It is hoped that the novel model will aid in ensuring information security and social media intelligence. For future work, an unsupervised LDA-BERT without any labeled data can be studied with the model.

  3. text-align: justify;">Последние годы получило широкое распространение применение нейросетевых моделей для решения задач аэродинамики. В основном такие модели, обученные по некоторому набору ранее полученных решений, позволяют предсказывать решения новых задач и являются в некотором смысле алгоритмами интерполяции. Альтернативным подходом может служить построение нейросетевого оператора, представляющего собой нейросетевую модель, которая воспроизводит поведение численного метода решения задачи. Такая модель позволяет находить решение задачи итерациями. В работе рассматривается вариант построения такого оператора с применением нейронной сети типа UNet с пространственным механизмом внимания для решения задач обтекания на прямоугольной равномерной сетке, общей для обтекаемого тела и поля течения. Для уточнения полученного решения предлагается и исследуется механизм коррекции решения. Анализируется вопрос устойчивости такого алгоритма решения стационарной задачи, проводится сравнение с некоторыми другими вариантами его построения: прием с продвижением вперед (pushforward trick), позиционное встраивание. Рассматривается вопрос выбора набора итераций для формирования обучающей выборки. Оценивается поведение решения при многократном применении нейросетевого оператора.

    text-align: justify;">Демонстрация метода приводится для случая обтекания скругленной пластины турбулентным потоком воздуха с различными вариантами скругления при фиксированных параметрах набегающего потока с числом Рейнольдса $\text{Re} = 10^5$ и числом Маха $M = 0,15$. Поскольку течения с такими параметрами набегающего потока можно считать несжимаемыми, исследуются непосредственно только компоненты скорости. При этом нейросетевая модель, используемая для построения оператора, имеет общий декодер для обеих компонент скорости. Проводится сравнение полей течения и профилей скорости по нормали и по обводу тела, полученных нейросетевым оператором и численно. Анализ проводится как на пластине, так и на скруглении. Результаты моделирования подтверждают, что нейросетевой оператор позволяет находить решение с высокой точностью устойчивым образом.

    text-align: justify;">In recent years, the use of neural network models for solving aerodynamics problems has become widespread. These models, trained on a set of previously obtained solutions, predict solutions to new problems. They are, in essence, interpolation algorithms. An alternative approach is to construct a neural network operator. This is a neural network that reproduces a numerical method used to solve a problem. It allows to find the solution in iterations. The paper considers the construction of such an operator using the UNet neural network with a spatial attention mechanism. It solves flow problems on a rectangular uniform grid that is common to a streamlined body and flow field. A correction mechanism is proposed to clarify the obtained solution. The problem of the stability of such an algorithm for solving a stationary problem is analyzed, and a comparison is made with other variants of its construction, including pushforward trick and positional encoding. The issue of selecting a set of iterations for forming a train dataset is considered, and the behavior of the solution is assessed using repeated use of a neural network operator.

    text-align: justify;">A demonstration of the method is provided for the case of flow around a rounded plate with a turbulent flow, with various options for rounding, for fixed parameters of the incoming flow, with Reynolds number $\text{Re} = 10^5$ and Mach number $M = 0.15$. Since flows with these parameters of the incoming flow can be considered incompressible, only velocity components are directly studied. At the same time, the neural network model used to construct the operator has a common decoder for both velocity components. Comparison of flow fields and velocity profiles along the normal and outline of the body, obtained using a neural network operator and numerical methods, is carried out. Analysis is performed both on the plate and rounding. Simulation results confirm that the neural network operator allows finding a solution with high accuracy and stability.

  4. Воронцов К.В., Потапенко А.А.
    Регуляризация, робастность и разреженность вероятностных тематических моделей
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 693-706

    text-align: justify;">Предлагается обобщенное семейство вероятностных тематических моделей коллекций текстовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от друга в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на тематические, шумовые и фоновые, не нуждается в регуляризации и обеспечивает разреженность искомых дискретных распределений тем в документах и терминов в темах.

    Vorontsov K.V., Potapenko A.A.
    Regularization, robustness and sparsity of probabilistic topic models
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 693-706

    text-align: justify;">We propose a generalized probabilistic topic model of text corpora which can incorporate heuristics of Bayesian regularization, sampling, frequent parameters update, and robustness in any combinations. Wellknown models PLSA, LDA, CVB0, SWB, and many others can be considered as special cases of the proposed broad family of models. We propose the robust PLSA model and show that it is more sparse and performs better that regularized models like LDA.

    Просмотров за год: 25. Цитирований: 12 (РИНЦ).
  5. Куликов Ю.М., Сон Э.Е.
    Применение схемы«КАБАРЕ» к задаче об эволюции свободного сдвигового течения
    Компьютерные исследования и моделирование, 2017, т. 9, № 6, с. 881-903

    text-align: justify;">В настоящей работе приводятся результаты численного моделирования свободного сдвигового течения с помощью схемы «КАБАРЕ», реализованной в приближении слабой сжимаемости. Анализ схемы проводится на основе изучения свойств неустойчивости Кельвина–Гельмгольца и порождаемой ею двумерной турбулентности, с использованием интегральных кривых кинетической энергии и энстрофии, картин временной эволюции завихренности, спектров энстрофии и энергии, а также дисперсионного соотношения для инкремента неустойчивости. Расчеты проводились для числа Рейнольдса $\text{Re} = 4 \times 10^5$, на квадратных последовательно сгущаемых сетках в диапазоне $128^2-2048^2$ ячеек. Внимание уделено проблеме «недоразрешенности слоев», проявляющейся в возникновении лишнего вихря при свертывании двух вихревых листов (слоев вихревой пелены). Данное явление существует только на грубых сетках $(128^2)$, однако, полностью симметричная картина эволюции завихренности начинает наблюдаться только при переходе к сетке $1024^2$ ячеек. Размерные оценки отношения вихрей на границах инерционного интервала показывают, что наиболее подробная сетка $2048^2$ ячеек оказывается достаточной для качественного отображения мелкомасштабных сгустков завихренности. Тем не менее можно говорить о достижении хорошей сходимости при отображении крупномасштабных структур. Эволюция турбулентности, в полном соответствии с теоретическими представлениями, приводит к появлению крупных вихрей, в которых сосредотачивается вся кинетическая энергия движения, и уединенных мелкомасштабных образований. Последние обладают свойствами когерентных структур, выживая в процессе нитеобразования (филаментации), и практически не взаимодействуют с вихрями других масштабов. Обсуждение диссипативных характеристик схемы ведется на основе анализа графиков скорости диссипации кинетической энергии, вычисляемой непосредственно, а также на основе теоретических соотношений для моделей несжимаемой жидкости (по кривым энстрофии) и сжимаемого газа (по влиянию тензора скоростей деформации и эффектов дилатации). Асимптотическое поведение каскадов кинетической энергии и энстрофии подчиняется реализующимся в двумерной турбулентности соотношениям $E(k) \propto k^{−3}$, $\omega^2(k) \propto k^{−1}$. Исследование зависимости инкремента неустойчивости от безразмерного волнового числа показывает хорошее согласие с данными других исследователей, вместе с тем часто используемый способ расчета инкремента неустойчивости не всегда оказывается достаточно точным, вследствие чего была предложена его модификация.

    text-align: justify;">Таким образом, реализованная схема, отличаясь малой диссипативностью и хорошим вихреразрешением, оказывается вполне конкурентоспособной в сравнении с методами высокого порядка точности.

    Kulikov Y.M., Son E.E.
    CABARET scheme implementation for free shear layer modeling
    Computer Research and Modeling, 2017, v. 9, no. 6, pp. 881-903

    text-align: justify;">In present paper we reexamine the properties of CABARET numerical scheme formulated for a weakly compressible fluid flow basing the results of free shear layer modeling. Kelvin–Helmholtz instability and successive generation of two-dimensional turbulence provide a wide field for a scheme analysis including temporal evolution of the integral energy and enstrophy curves, the vorticity patterns and energy spectra, as well as the dispersion relation for the instability increment. The most part of calculations is performed for Reynolds number $\text{Re} = 4 \times 10^5$ for square grids sequentially refined in the range of $128^2-2048^2$ nodes. An attention is paid to the problem of underresolved layers generating a spurious vortex during the vorticity layers roll-up. This phenomenon takes place only on a coarse grid with $128^2$ nodes, while the fully regularized evolution pattern of vorticity appears only when approaching $1024^2$-node grid. We also discuss the vorticity resolution properties of grids used with respect to dimensional estimates for the eddies at the borders of the inertial interval, showing that the available range of grids appears to be sufficient for a good resolution of small–scale vorticity patches. Nevertheless, we claim for the convergence achieved for the domains occupied by large-scale structures.

    text-align: justify;">The generated turbulence evolution is consistent with theoretical concepts imposing the emergence of large vortices, which collect all the kinetic energy of motion, and solitary small-scale eddies. The latter resemble the coherent structures surviving in the filamentation process and almost noninteracting with other scales. The dissipative characteristics of numerical method employed are discussed in terms of kinetic energy dissipation rate calculated directly and basing theoretical laws for incompressible (via enstrophy curves) and compressible (with respect to the strain rate tensor and dilatation) fluid models. The asymptotic behavior of the kinetic energy and enstrophy cascades comply with two-dimensional turbulence laws $E(k) \propto k^{−3}, \omega^2(k) \propto k^{−1}$. Considering the instability increment as a function of dimensionless wave number shows a good agreement with other papers, however, commonly used method of instability growth rate calculation is not always accurate, so some modification is proposed. Thus, the implemented CABARET scheme possessing remarkably small numerical dissipation and good vorticity resolution is quite competitive approach compared to other high-order accuracy methods

    Просмотров за год: 17.
  6. Забелло К.К., Гарбарук А.В.
    Исследование точности метода решеточных уравнений Больцмана при расчете распространения акустических волн
    Компьютерные исследования и моделирование, 2025, т. 17, № 6, с. 1069-1081

    text-align: justify;">В статье проводится систематическое исследование возможностей метода решеточных уравнений Больцмана (lattice Boltzmann method, LBM или РУБ) для описания распространения акустических волн. Рассмотрена задача о распространении возмущений от точечного гармонического источника акустических возмущений в неограниченном пространстве как в неподвижной среде (число Маха $M=0$), так и при наличии набегающего потока (число Маха $M=0{,}2$). Обе рассмотренные задачи имеют аналитическое решение в приближении линейной акустики, что позволяет количественно оценить точность численного метода.

    text-align: justify;">Численная реализация осуществлена с использованием двумерной модели скоростей D2Q9 и оператора столкновений Бхатнагара – Гросса – Крука (BGK). Источник колебаний задавался согласно схеме Gou, а возникающий от источника паразитный шум в моментах старших порядков убирался за счет использования процедуры регуляризации функций распределения. Для минимизации отражений от границ расчетной области использовался гибридный подход, основанный на совместном использовании характеристических граничных условий на основе инвариантов Римана и поглощающих PML-слоев (perfectly matched layer) с параболическим профилем затухания.

    text-align: justify;">В ходе работы проведен детальный анализ влияния вычислительных параметров метода на точность расчета. Исследована зависимость погрешности от толщины PML-слоя ($L_{\text{PML}}^{}$) и максимального коэффициента демпфирования ($\sigma_{\max}^{}$), безразмерной амплитуды источника ($Q'_0$) и шага расчетной сетки. Показано, что метод РУБ применим для моделирования распространения акустических волн и обладает вторым порядком точности. Установлено, что для достижения высокой точности расчета (относительная погрешность давления — не более $1\,\%$) достаточно пространственного разрешения в $20$ точек на длину волны ($\lambda$). Определены минимальные эффективные параметры PML-слоя: $\sigma_{\max}^{}\geqslant 0{,}02$ и $L_{\text{PML}}^{} \geqslant 2\lambda$, обеспечивающие отсутствие отражения от границ расчетной области. Также продемонстрировано, что при амплитудах источника $Q_0' \geqslant 0{,}1$ влияние нелинейных эффектов становится существенным по сравнению с другими источниками погрешности.

    Zabello K.K., Garbaruk A.V.
    Investigation of the accuracy of the lattice Boltzmann method in calculating acoustic wave propagation
    Computer Research and Modeling, 2025, v. 17, no. 6, pp. 1069-1081

    text-align: justify;">The article presents a systematic investigation of the capabilities of the lattice Boltzmann method (LBM) for modeling the propagation of acoustic waves. The study considers the problem of wave propagation from a point harmonic source in an unbounded domain, both in a quiescent medium (Mach number $M=0$) and in the presence of a uniform mean flow ($M=0.2$). Both scenarios admit analytical solutions within the framework of linear acoustics, allowing for a quantitative assessment of the accuracy of the numerical method.

    text-align: justify;">The numerical implementation employs the two-dimensional D2Q9 velocity model and the Bhatnagar – Gross – Krook (BGK) collision operator. The oscillatory source is modeled using Gou’s scheme, while spurious high-order moment noise generated by the source is suppressed via a regularization procedure applied to the distribution functions. To minimize wave reflections from the boundaries of the computational domain, a hybrid approach is used, combining characteristic boundary conditions based on Riemann invariants with perfectly matched layers (PML) featuring a parabolic damping profile.

    text-align: justify;">A detailed analysis is conducted to assess the influence of computational parameters on the accuracy of the method. The dependence of the error on the PML thickness ($L_{\text{PML}}^{}$) and the maximum damping coefficient ($\sigma_{\max}^{}$), the dimensionless source amplitude ($Q'_0$), and the grid resolution is thoroughly examined. The results demonstrate that the LBM is suitable for simulating acoustic wave propagation and exhibits second-order accuracy. It is shown that achieving high accuracy (relative pressure error below $1\,\%$) requires a spatial resolution of at least $20$ grid points per wavelength ($\lambda$). The minimal effective PML parameters ensuring negligible boundary reflections are identified as $\sigma_{\max}^{}\geqslant 0.02$ and $L_{\text{PML}}^{} \geqslant 2\lambda$. Additionally, it is shown that for source amplitudes $Q_0' \geqslant 0.1$, nonlinear effects become significant compared to other sources of error.

  7. Кочергин А.В., Холматова З.Ш.
    Извлечение персонажей и событий из повествований
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1593-1600

    text-align: justify;">Извлечение событий и персонажей из повествований является фундаментальной задачей при анализе и обработке текста на естественном языке. Методы извлечения событий применяются в самых разных областях — от обобщения различных документов до анализа медицинских записей. Мы определяли события на основе структуры под названием «четыре W» (кто, что, когда, где), чтобы охватить все основные компоненты событий, такие как действующие лица, действия, время и места. В этой статье мы рассмотрели два основных метода извлечения событий: статистический анализ синтаксических деревьев и семантическая маркировка ролей. Хотя эти методы были изучены разными исследователями по отдельности, мы напрямую сравнили эффективность двух подходов на собранном нами наборе данных, который мы разметили.

    text-align: justify;">Наш анализ показал, что статистический анализ синтаксических деревьев превосходит семантическую маркировку ролей при выделении событий и символов, особенно при определении конкретных деталей. Тем не менее, семантическая маркировка ролей продемонстрировала хорошую эффективность при правильной идентификации действующих лиц. Мы оценили эффективность обоих подходов, сравнив различные показатели, такие как точность, отзывчивость и F1-баллы, продемонстрировав, таким образом, их соответствующие преимущества и ограничения.

    text-align: justify;">Более того, в рамках нашей работы мы предложили различные варианты применения методов извлечения событий, которые мы планируем изучить в дальнейшем. Области, в которых мы хотим применить эти методы, включают анализ кода и установление авторства исходного кода. Мы рассматриваем возможность использования методов извлечения событий для определения ключевых элементов кода в виде назначений переменных и вызовов функций, что в дальнейшем может помочь ученым проанализировать поведение программ и определить участников проекта. Наша работа дает новое понимание эффективности статистического анализа и методов семантической маркировки ролей, предлагая исследователям новые направления для применения этих методов.

    Kochergin A.V., Kholmatova Z.Sh.
    Extraction of characters and events from narratives
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1593-1600

    text-align: justify;">Events and character extraction from narratives is a fundamental task in text analysis. The application of event extraction techniques ranges from the summarization of different documents to the analysis of medical notes. We identify events based on a framework named “four W” (Who, What, When, Where) to capture all the essential components like the actors, actions, time, and places. In this paper, we explore two prominent techniques for event extraction: statistical parsing of syntactic trees and semantic role labeling. While these techniques were investigated by different researchers in isolation, we directly compare the performance of the two approaches on our custom dataset, which we have annotated.

    text-align: justify;">Our analysis shows that statistical parsing of syntactic trees outperforms semantic role labeling in event and character extraction, especially in identifying specific details. Nevertheless, semantic role labeling demonstrate good performance in correct actor identification. We evaluate the effectiveness of both approaches by comparing different metrics like precision, recall, and F1-scores, thus, demonstrating their respective advantages and limitations.

    text-align: justify;">Moreover, as a part of our work, we propose different future applications of event extraction techniques that we plan to investigate. The areas where we want to apply these techniques include code analysis and source code authorship attribution. We consider using event extraction to retrieve key code elements as variable assignments and function calls, which can further help us to analyze the behavior of programs and identify the project’s contributors. Our work provides novel understandings of the performance and efficiency of statistical parsing and semantic role labeling techniques, offering researchers new directions for the application of these techniques.

  8. Орлова И.Н., Голубцова А.Н., Орлов В.А., Орлов Н.В.
    Исследование достижимости цели в медицинском квесте
    Компьютерные исследования и моделирование, 2025, т. 17, № 6, с. 1149-1179

    text-align: justify;">В работе представлено экспериментальное исследование древовидной структуры, возникающей при медицинском обследовании. При каждой встрече с медицинским специалистом пациент получает некоторое количество направлений на консультации других специалистов или на анализы. Возникает дерево направлений, каждую ветвь которого должен пройти пациент. В зависимости от разветвленности дерева оно может быть как конечным (и в этом случае обследование может быть завершено), так и бесконечным, когда цель пациента не может быть достигнута. В работе как экспериментально, так и теоретически изучаются критические свойства перехода системы из леса конечных деревьев в лес бесконечных в зависимости от вероятностных характеристик дерева.

    text-align: justify;">Для описания предлагается модель, в которой дискретная функция вероятности числа ветвей на узле повторяет динамику непрерывного гауссового распределения. Характеристики распределения Гаусса (математическое ожидание $x_0$, среднеквадратичное отклонение $\sigma$) являются параметрами модели. В выбранной постановке задача относится к проблематике ветвящихся случайных процессов (ВСП) в неоднородной модели Гальтона – Ватсона.

    text-align: justify;">Экспериментальное изучение проводится путем численного моделирования на конечных решетках. Построена фазовая диаграмма, определены границы областей различных фаз. Проведено сравнение с фазовой диаграммой, полученной из теоретических критериев для макросистем, установлено адекватное соответствие. Показано, что на конечных решетках переход является размытым.

    text-align: justify;">Описание размытого фазового перехода проведено с помощью двух подходов. В первом (стандартном) подходе переход описывается с помощью так называемой функции включения, имеющей смысл доли одной из фаз в общем множестве. Установлено, что такой подход в данной системе неэффективен, поскольку найденное положение условной границы размытого перехода определяется только размером выбранной экспериментальной решетки и не несет объективного смысла.

    text-align: justify;">Предлагается второй (оригинальный) подход, основанный на введении в рассмотрение параметра порядка, равного обратной средней высоте дерева, и анализа его поведения. Установлено, что динамика такого параметра порядка в сечениях $\sigma = \text{const}$ с очень небольшими отличиями имеет вид распределения Ферми – Дирака ($\sigma$ выполняет ту же функцию, что и температура для распределения Ферми – Дирака, $x_0$ — функцию энергии). Для параметра порядка подобрано эмпирическое выражение, введен и рассчитан аналог химического потенциала, который и имеет смысл характерного масштаба параметра порядка, то есть тех значений $x_0$, при которых условно можно считать, что порядок сменяется беспорядком. Этот критерий положен в основу определе- ния границы условного перехода в данном подходе. Установлено, что эта граница соответствует средней высоте дерева, равной двум поколениям. На основании обнаруженных свойств предложены рекомендации для медицинских учреждений, позволяющие контролировать обеспечение конечности траектории пациентов.

    text-align: justify;">Рассмотренная модель и метод ее описания с помощью условно-бесконечных деревьев имеют приложение ко многим иерархическим системам. К таким системам можно отнести сети маршрутизации интернет-соединений, бюрократические сети, торговые, логистические сети, сети цитирования, игровые стратегии, задачи популяционной динамики и пр.

    Orlova I.N., Golubtsova A.N., Orlov V.A., Orlov N.V.
    Research on the achievability of a goal in a medical quest
    Computer Research and Modeling, 2025, v. 17, no. 6, pp. 1149-1179

    text-align: justify;">The work presents an experimental study of the tree structure that occurs during a medical examination. At each meeting with a medical specialist, the patient receives a certain number of areas for consulting other specialists or for tests. A tree of directions arises, each branch of which the patient should pass. Depending on the branching of the tree, it can be as final — and in this case the examination can be completed — and endless when the patient’s goal cannot be achieved. In the work both experimentally and theoretically studied the critical properties of the transition of the system from the forest of the final trees to the forest endless, depending on the probabilistic characteristics of the tree.

    text-align: justify;">For the description, a model is proposed in which a discrete function of the probability of the number of branches on the node repeats the dynamics of a continuous gaussian distribution. The characteristics of the distribution of the Gauss (mathematical expectation of $x_0$, the average quadratic deviation of $\sigma$) are model parameters. In the selected setting, the task refers to the problems of branching random processes (BRP) in the heterogeneous model of Galton – Watson.

    text-align: justify;">Experimental study is carried out by numerical modeling on the final grilles. A phase diagram was built, the boundaries of areas of various phases are determined. A comparison was made with the phase diagram obtained from theoretical criteria for macrosystems, and an adequate correspondence was established. It is shown that on the final grilles the transition is blurry.

    text-align: justify;">The description of the blurry phase transition was carried out using two approaches. In the first, standard approach, the transition is described using the so-called inclusion function, which makes the meaning of the share of one of the phases in the general set. It was established that such an approach in this system is ineffective, since the found position of the conditional boundary of the blurred transition is determined only by the size of the chosen experimental lattice and does not bear objective meaning.

    text-align: justify;">The second, original approach is proposed, based on the introduction of an parameter of order equal to the reverse average tree height, and the analysis of its behavior. It was established that the dynamics of such an order parameter in the $\sigma = \text{const}$ section with very small differences has the type of distribution of Fermi – Dirac ($\sigma$ performs the same function as the temperature for the distribution of Fermi – Dirac, $x_0$ — energy function). An empirical expression has been selected for the order parameter, an analogue of the chemical potential is introduced and calculated, which makes sense of the characteristic scale of the order parameter — that is, the values of $x_0$, in which the order can be considered a disorder. This criterion is the basis for determining the boundary of the conditional transition in this approach. It was established that this boundary corresponds to the average height of a tree equal to two generations. Based on the found properties, recommendations for medical institutions are proposed to control the provision of limb of the path of patients.

    text-align: justify;">The model discussed and its description using conditionally-infinite trees have applications to many hierarchical systems. These systems include: internet routing networks, bureaucratic networks, trade and logistics networks, citation networks, game strategies, population dynamics problems, and others.

  9. Чувилин К.В.
    Эффективный алгоритм сравнения документов в формате ${\mathrm{\LaTeX}}$
    Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 329-345

    text-align: justify;">Рассматривается задача построения различий, возникающих при редактировании документов в формате ${\mathrm{\LaTeX}}$. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang–Shasha.

    Chuvilin K.V.
    An efficient algorithm for ${\mathrm{\LaTeX}}$ documents comparing
    Computer Research and Modeling, 2015, v. 7, no. 2, pp. 329-345

    text-align: justify;">The problem is constructing the differences that arise on ${\mathrm{\LaTeX}}$ documents editing. Each document is represented as a parse tree whose nodes are called tokens. The smallest possible text representation of the document that does not change the syntax tree is constructed. All of the text is splitted into fragments whose boundaries correspond to tokens. A map of the initial text fragment sequence to the similar sequence of the edited document corresponding to the minimum distance is built with Hirschberg algorithm A map of text characters corresponding to the text fragment sequences map is cunstructed. Tokens, that chars are all deleted, or all inserted, or all not changed, are selected in the parse trees. The map for the trees formed with other tokens is built using Zhang–Shasha algorithm.

    Просмотров за год: 2. Цитирований: 2 (РИНЦ).
  10. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    text-align: justify;">Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Zakharova E.M.
    Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170

    text-align: justify;">Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.

Страницы: следующая последняя »

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.