Текущий выпуск Номер 2, 2026 Том 18

Все выпуски

Результаты поиска по 'empirical distribution function':
Найдено статей: 8
  1. Гогуев М.В., Кислицын А.А.
    Моделирование траекторий временных рядов с помощью уравнения Лиувилля
    Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 585-598

    Представлен алгоритм моделирования ансамбля траекторий нестационарных временных рядов. Построена численная схема аппроксимации выборочной плотности функции распределения в задаче с закрепленными концами, когда начальное распределение за заданное количество шагов переходит в определенное конечное распределение, так, что на каждом шаге выполняется полугрупповое свойство решения уравнения Лиувилля. Модель позволяет численно построить эволюционирующие плотности функций распределения при случайном переключении состояний системы, порождающей исходный временной ряд.

    Основная проблема, рассматриваемая в работе, связана с тем, что при численной реализации левосторонней разностной производной по времени решение становится неустойчивым, но именно такой подход отвечает моделированию эволюции. При выборе неявных устойчивых схем с «заходом в будущее» используется итерационный процесс, который на каждом своем шаге не отвечает полугрупповому свойству. Если же моделируется некоторый реальный процесс, в котором предположительно имеет место целеполагание, то желательно использовать схемы, которые порождают модель переходного процесса. Такая модель используется в дальнейшем для того, чтобы построить предиктор разладки, который позволит определить, в какое именно состояние переходит изучаемый процесс до того, как он действительно в него перешел. Описываемая в статье модель может использоваться как инструментарий моделирования реальных нестационарных временных рядов.

    Схема моделирования состоит в следующем. Из заданного временного ряда отбираются фрагменты, отвечающие определенным состояниям, например трендам с заданными углами наклона и дисперсиями. Из этих фрагментов составляются эталонные распределения состояний. Затем определяются эмпирические распределения длительностей пребывания системы в указанных состояниях и длительности времени перехода из состояния в состояние. В соответствии с этими эмпирическими распределениями строится вероятностная модель разладки и моделируются соответствующие траектории временного ряда.

    Goguev M.V., Kislitsyn A.A.
    Modeling time series trajectories using the Liouville equation
    Computer Research and Modeling, 2024, v. 16, no. 3, pp. 585-598

    This paper presents algorithm for modeling set of trajectories of non-stationary time series, based on a numerical scheme for approximating the sample density of the distribution function in a problem with fixed ends, when the initial distribution for a given number of steps transforms into a certain final distribution, so that at each step the semigroup property of solving the Liouville equation is satisfied. The model makes it possible to numerically construct evolving densities of distribution functions during random switching of states of the system generating the original time series.

    The main problem is related to the fact that with the numerical implementation of the left-hand differential derivative in time, the solution becomes unstable, but such approach corresponds to the modeling of evolution. An integrative approach is used while choosing implicit stable schemes with “going into the future”, this does not match the semigroup property at each step. If, on the other hand, some real process is being modeled, in which goal-setting presumably takes place, then it is desirable to use schemes that generate a model of the transition process. Such model is used in the future in order to build a predictor of the disorder, which will allow you to determine exactly what state the process under study is going into, before the process really went into it. The model described in the article can be used as a tool for modeling real non-stationary time series.

    Steps of the modeling scheme are described further. Fragments corresponding to certain states are selected from a given time series, for example, trends with specified slope angles and variances. Reference distributions of states are compiled from these fragments. Then the empirical distributions of the duration of the system’s stay in the specified states and the duration of the transition time from state to state are determined. In accordance with these empirical distributions, a probabilistic model of the disorder is constructed and the corresponding trajectories of the time series are modeled.

  2. Алкуса М.С., Гасников А.В., Двуреченский П.Е., Садиев А.А., Разук Л.Я.
    Подход к решению невыпуклой равномерно вогнутой седловой задачи со структурой
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 225-237

    В последнее время седловым задачам уделяется большое внимание благодаря их мощным возможностям моделирования для множества задач из различных областей. Приложения этих задач встречаются в многочисленных современных прикладных областях, таких как робастная оптимизация, распределенная оптимизация, теория игр и~приложения машинного обучения, такие как, например, минимизация эмпирического риска или обучение генеративно-состязательных сетей. Поэтому многие исследователи активно работают над разработкой численных методов для решения седловых задач в самых разных предположениях. Данная статья посвящена разработке численного метода решения седловых задач в невыпуклой равномерно вогнутой постановке. В этой постановке считается, что по группе прямых переменных целевая функция может быть невыпуклой, а по группе двойственных переменных задача является равномерно вогнутой (это понятие обобщает понятие сильной вогнутости). Был изучен более общий класс седловых задач со сложной композитной структурой и гёльдерово непрерывными производными высшего порядка. Для решения рассматриваемой задачи был предложен подход, при котором мы сводим задачу к комбинации двух вспомогательных оптимизационных задач отдельно для каждой группы переменных: внешней задачи минимизации и~внутренней задачи максимизации. Для решения внешней задачи минимизации мы используем адаптивный градиентный метод, который применим для невыпуклых задач, а также работает с неточным оракулом, который генерируется путем неточного решения внутренней задачи максимизации. Для решения внутренней задачи максимизации мы используем обобщенный ускоренный метод с рестартами, который представляет собой метод, объединяющий методы ускорения высокого порядка для минимизации выпуклой функции, имеющей гёльдерово непрерывные производные высшего порядка. Важной компонентой проведенного анализа сложности предлагаемого алгоритма является разделение оракульных сложностей на число вызовов оракула первого порядка для внешней задачи минимизации и оракула более высокого порядка для внутренней задачи максимизации. Более того, оценивается сложность всего предлагаемого подхода.

    Alkousa M.S., Gasnikov A.V., Dvurechensky P.E., Sadiev A.A., Razouk L.Ya.
    An approach for the nonconvex uniformly concave structured saddle point problem
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 225-237

    Recently, saddle point problems have received much attention due to their powerful modeling capability for a lot of problems from diverse domains. Applications of these problems occur in many applied areas, such as robust optimization, distributed optimization, game theory, and many applications in machine learning such as empirical risk minimization and generative adversarial networks training. Therefore, many researchers have actively worked on developing numerical methods for solving saddle point problems in many different settings. This paper is devoted to developing a numerical method for solving saddle point problems in the nonconvex uniformly-concave setting. We study a general class of saddle point problems with composite structure and H\"older-continuous higher-order derivatives. To solve the problem under consideration, we propose an approach in which we reduce the problem to a combination of two auxiliary optimization problems separately for each group of variables, the outer minimization problem w.r.t. primal variables, and the inner maximization problem w.r.t the dual variables. For solving the outer minimization problem, we use the Adaptive Gradient Method, which is applicable for nonconvex problems and also works with an inexact oracle that is generated by approximately solving the inner problem. For solving the inner maximization problem, we use the Restarted Unified Acceleration Framework, which is a framework that unifies the high-order acceleration methods for minimizing a convex function that has H\"older-continuous higher-order derivatives. Separate complexity bounds are provided for the number of calls to the first-order oracles for the outer minimization problem and higher-order oracles for the inner maximization problem. Moreover, the complexity of the whole proposed approach is then estimated.

  3. В различных областях науки при моделировании и статистическом анализе данных, характеризующихся цикличностью (периодичностью), используют круговые или обернутые модели распределений. В работе рассматривается плотность распределения вероятностей фазы гармонического сигнала и сигнала с фазовой манипуляцией в условиях аддитивного белого гауссовского шума. Представлены выражения для моделирования выборки случайных фаз гармонического и модулированного сигналов с заданными параметрами и корреляционной функцией. Приведены выражения для плотности распределения фаз фазоманипулированного сигнала. Показано, что плотность распределения фазоманипулированного сигнала становится мультимодальной. Кроме того, рассматриваемая плотность распределения является периодической функцией, а значит, для ее разложения в ряд естественно использование тригонометрического базиса Фурье. В работе впервые получены аналитические выражения для коэффициентов ряда Фурье при разложении рассматриваемой плотности по гармоническому базису и представлен вывод соответствующих выражений. Представлены примеры компьютерного моделирования и соответствующие графические материалы при вычислении коэффициентов Фурье функции плотности распределения вероятностей фаз для гармонического и фазоманипулированного сигналов. Также выведены выражение для функции распределения фазы и его разложение в ряд Фурье. На основе представления плотности распределения фаз в виде ряда Фурье проведено сравнение с другими круговыми распределениями, часто применяемыми в практических задачах, — распределение Мизеса и обернутое нормальное распределение. Полученные в работе результаты представляют теоретический и практический интерес для моделирования и статистического анализа фаз сигналов в различных прикладных задачах в области радиотехники, цифровой связи, радиолокации. В частности, в задачах оценки отношения «сигнал/шум», вероятности ошибки на бит, а также надежности решений демодулятора, т.е. мягкой демодуляции фазоманипулированных сигналов. Аналитические выражения для коэффициентов ряда Фурье могут быть использованы при оценке эмпирической плотности распределения.

    For modeling and statistical analysis of data characterized by cyclicity (periodicity) in various areas of science are used circular or wrapped distribution models. The phase distribution function of a harmonic and phase-shift-keying signal in case additive white Gaussian noise is considered. Algorithms for modeling random phases sample of harmonic and modulated signals with specified parameters and correlation function are presented. Expressions for the phase distribution density of the phase-shift-keying signal are given. It is shown that the phase probability density function of the phase-shift-keying signal becomes multimodal. In addition, the probability density function under consideration is a periodic function, which means that the trigonometric Fourier basis can be used to decompose it into a series. In paper for the first time, analytical expressions for the coefficients of the Fourier series when decomposing the density under consideration into a harmonic basis are obtained, and the derivation of the corresponding expressions are presented. Examples of computer modeling and corresponding graphical materials of calculating Fourier coefficients of the phase probability density function for harmonic and phase-shift-keying signals are presented. A formula for the cumulative distribution function and its decomposition into a Fourier series are also obtained. Based on the representation of the phase probability density function in the form of a Fourier series, a comparison is made with other circular distributions often used in practical problems, the Mises distribution and the wrapped normal distribution. The results obtained in this work are of theoretical and practical interest for modeling and statistical analysis of signal phases in various applied problems in area radio engineering, digital communication, radar, etc. In particular, in the problems of estimating the signal-to-noise ratio, the bit error rate, as well as the reliability of demodulator solutions, i. e. soft demodulation of phase-shift-keying signals. Analytical expressions for the Fourier series coefficients can be used to estimate the empirical probability density function.

  4. Орлова И.Н., Голубцова А.Н., Орлов В.А., Орлов Н.В.
    Исследование достижимости цели в медицинском квесте
    Компьютерные исследования и моделирование, 2025, т. 17, № 6, с. 1149-1179

    В работе представлено экспериментальное исследование древовидной структуры, возникающей при медицинском обследовании. При каждой встрече с медицинским специалистом пациент получает некоторое количество направлений на консультации других специалистов или на анализы. Возникает дерево направлений, каждую ветвь которого должен пройти пациент. В зависимости от разветвленности дерева оно может быть как конечным (и в этом случае обследование может быть завершено), так и бесконечным, когда цель пациента не может быть достигнута. В работе как экспериментально, так и теоретически изучаются критические свойства перехода системы из леса конечных деревьев в лес бесконечных в зависимости от вероятностных характеристик дерева.

    Для описания предлагается модель, в которой дискретная функция вероятности числа ветвей на узле повторяет динамику непрерывного гауссового распределения. Характеристики распределения Гаусса (математическое ожидание $x_0$, среднеквадратичное отклонение $\sigma$) являются параметрами модели. В выбранной постановке задача относится к проблематике ветвящихся случайных процессов (ВСП) в неоднородной модели Гальтона – Ватсона.

    Экспериментальное изучение проводится путем численного моделирования на конечных решетках. Построена фазовая диаграмма, определены границы областей различных фаз. Проведено сравнение с фазовой диаграммой, полученной из теоретических критериев для макросистем, установлено адекватное соответствие. Показано, что на конечных решетках переход является размытым.

    Описание размытого фазового перехода проведено с помощью двух подходов. В первом (стандартном) подходе переход описывается с помощью так называемой функции включения, имеющей смысл доли одной из фаз в общем множестве. Установлено, что такой подход в данной системе неэффективен, поскольку найденное положение условной границы размытого перехода определяется только размером выбранной экспериментальной решетки и не несет объективного смысла.

    Предлагается второй (оригинальный) подход, основанный на введении в рассмотрение параметра порядка, равного обратной средней высоте дерева, и анализа его поведения. Установлено, что динамика такого параметра порядка в сечениях $\sigma = \text{const}$ с очень небольшими отличиями имеет вид распределения Ферми – Дирака ($\sigma$ выполняет ту же функцию, что и температура для распределения Ферми – Дирака, $x_0$ — функцию энергии). Для параметра порядка подобрано эмпирическое выражение, введен и рассчитан аналог химического потенциала, который и имеет смысл характерного масштаба параметра порядка, то есть тех значений $x_0$, при которых условно можно считать, что порядок сменяется беспорядком. Этот критерий положен в основу определе- ния границы условного перехода в данном подходе. Установлено, что эта граница соответствует средней высоте дерева, равной двум поколениям. На основании обнаруженных свойств предложены рекомендации для медицинских учреждений, позволяющие контролировать обеспечение конечности траектории пациентов.

    Рассмотренная модель и метод ее описания с помощью условно-бесконечных деревьев имеют приложение ко многим иерархическим системам. К таким системам можно отнести сети маршрутизации интернет-соединений, бюрократические сети, торговые, логистические сети, сети цитирования, игровые стратегии, задачи популяционной динамики и пр.

    Orlova I.N., Golubtsova A.N., Orlov V.A., Orlov N.V.
    Research on the achievability of a goal in a medical quest
    Computer Research and Modeling, 2025, v. 17, no. 6, pp. 1149-1179

    The work presents an experimental study of the tree structure that occurs during a medical examination. At each meeting with a medical specialist, the patient receives a certain number of areas for consulting other specialists or for tests. A tree of directions arises, each branch of which the patient should pass. Depending on the branching of the tree, it can be as final — and in this case the examination can be completed — and endless when the patient’s goal cannot be achieved. In the work both experimentally and theoretically studied the critical properties of the transition of the system from the forest of the final trees to the forest endless, depending on the probabilistic characteristics of the tree.

    For the description, a model is proposed in which a discrete function of the probability of the number of branches on the node repeats the dynamics of a continuous gaussian distribution. The characteristics of the distribution of the Gauss (mathematical expectation of $x_0$, the average quadratic deviation of $\sigma$) are model parameters. In the selected setting, the task refers to the problems of branching random processes (BRP) in the heterogeneous model of Galton – Watson.

    Experimental study is carried out by numerical modeling on the final grilles. A phase diagram was built, the boundaries of areas of various phases are determined. A comparison was made with the phase diagram obtained from theoretical criteria for macrosystems, and an adequate correspondence was established. It is shown that on the final grilles the transition is blurry.

    The description of the blurry phase transition was carried out using two approaches. In the first, standard approach, the transition is described using the so-called inclusion function, which makes the meaning of the share of one of the phases in the general set. It was established that such an approach in this system is ineffective, since the found position of the conditional boundary of the blurred transition is determined only by the size of the chosen experimental lattice and does not bear objective meaning.

    The second, original approach is proposed, based on the introduction of an parameter of order equal to the reverse average tree height, and the analysis of its behavior. It was established that the dynamics of such an order parameter in the $\sigma = \text{const}$ section with very small differences has the type of distribution of Fermi – Dirac ($\sigma$ performs the same function as the temperature for the distribution of Fermi – Dirac, $x_0$ — energy function). An empirical expression has been selected for the order parameter, an analogue of the chemical potential is introduced and calculated, which makes sense of the characteristic scale of the order parameter — that is, the values of $x_0$, in which the order can be considered a disorder. This criterion is the basis for determining the boundary of the conditional transition in this approach. It was established that this boundary corresponds to the average height of a tree equal to two generations. Based on the found properties, recommendations for medical institutions are proposed to control the provision of limb of the path of patients.

    The model discussed and its description using conditionally-infinite trees have applications to many hierarchical systems. These systems include: internet routing networks, bureaucratic networks, trade and logistics networks, citation networks, game strategies, population dynamics problems, and others.

  5. Рассмотрены вопросы адекватности разработанной ранее автором модели для анализа неравенства доходов, основанной на эмпирически подтвержденной гипотезе о том, что относительные (по отношению к доходу наиболее богатой группы) величины дохода 20% групп населения в совокупном доходе могут быть приближенно представлены в виде конечной функциональной последовательности, каждый член которой зависит от одного параметра — специально определенного показателя неравенства. Показано, что в дополнение к существующим методам анализа неравенства с помощью этой модели можно определить зависимость доли дохода 20%, 10% и более мелких групп населения от уровня неравенства, выявить особенности их изменения при росте неравенства, рассчитать уровень неравенства при известных соотношениях между доходами различных групп населения и др.

    В работе приводится более подробное подтверждение адекватности предложенной модели по сравнению с полученными ранее результатами статистического анализа эмпирических данных о распределении доходов между 20%- и 10%-ми группами населения. Оно основано на анализе определенных соотношений между величинами квинтилей и децилей согласно предлагаемой модели. Проверка этих соотношений проведена по совокупности данных для большого числа стран. Полученные оценки подтверждают достаточно высокую точность модели.

    Приведены данные, которые подтверждают возможность применения модели для анализа зависимости распределения доходов по группам населения от уровня неравенства, а также для оценки показателя неравенства для вариантов соотношений доходов между различными группами, в том числе когда доход 20% наиболее богатых равен доходу 60% бедных, доходу 40% среднего класса или доходу 80% остального населения, а также когда доход 10% самых богатых равен доходу 40%, 50% или 60% бедных, доходу различных групп среднего класса и др., а также для случаев, когда распределение доходов подчиняется гармоническим пропорциям и когда квинтили и децили, соответствующие среднему классу, достигают максимума. Показано, что доли дохода наиболее богатых групп среднего класса относительно стабильны и имеют максимум при определенных уровнях неравенства.

    Полученные с помощью модели результаты могут быть использованы для определения нормативов при разработке политики поэтапного повышении уровня прогрессивного налогообложения с целью перехода к уровню неравенства, характерному для стран с социально ориентированной экономикой.

    Varshavskiy A.E.
    A model for analyzing income inequality based on a finite functional sequence (adequacy and application problems)
    Computer Research and Modeling, 2022, v. 14, no. 3, pp. 675-689

    The paper considers the adequacy of the model developed earlier by the author for the analysis of income inequality and based on an empirically confirmed hypothesis that the relative (to the income of the richest group) income values of 20% population groups in total income can be represented as a finite functional sequence, each member of which depends on one parameter — a specially defined indicator of inequality. It is shown that in addition to the existing methods of inequality analysis, the model makes it possible to estimate with the help of analytical expressions the income shares of 20%, 10% and smaller groups of the population for different levels of inequality, as well as to identify how they change with the growth of inequality, to estimate the level of inequality for known ratios between the incomes of different groups of the population, etc.

    The paper provides a more detailed confirmation of the proposed model adequacy in comparison with the previously obtained results of statistical analysis of empirical data on the distribution of income between the 20% and 10% population groups. It is based on the analysis of certain ratios between the values of quintiles and deciles according to the proposed model. The verification of these ratios was carried out using a set of data for a large number of countries and the estimates obtained confirm the sufficiently high accuracy of the model.

    Data are presented that confirm the possibility of using the model to analyze the dependence of income distribution by population groups on the level of inequality, as well as to estimate the inequality indicator for income ratios between different groups, including variants when the income of the richest 20% is equal to the income of the poor 60 %, income of the middle class 40% or income of the rest 80% of the population, as well as when the income of the richest 10% is equal to the income of the poor 40 %, 50% or 60%, to the income of various middle class groups, etc., as well as for cases, when the distribution of income obeys harmonic proportions and when the quintiles and deciles corresponding to the middle class reach a maximum. It is shown that the income shares of the richest middle class groups are relatively stable and have a maximum at certain levels of inequality.

    The results obtained with the help of the model can be used to determine the standards for developing a policy of gradually increasing the level of progressive taxation in order to move to the level of inequality typical of countries with social oriented economy.

  6. Попов А.Б.
    Неэкстенсивная статистика Тсаллиса системы контрактоворганизаций оборонно-промышленного комплекса
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1163-1183

    В работе проведен анализ системы контрактов, заключаемых организациями оборонно-промышленного комплекса России в процессе выполнения государственного оборонного заказа. Сделан вывод, что для описания данной системы может быть использована методология статистической механики. По аналогии с подходом, применяемым при рассмотрении большого канонического ансамбля Гиббса, изучаемый ансамбль сформирован в виде набора мгновенных «картинок», образованных из действующих в каждый момент времени неразличимых контрактов со своими стоимостями. Показано, что ограничения, накладываемые государством на процесс ценообразования, являются причиной того, что совокупность контрактов может быть отнесена к категории так называемых сложных систем, для описания которых используется неэкстенсивная статистика Тсаллиса. Это приводит к тому, что стоимостные распределения контрактов должны соответствовать деформированному распределению Бозе–Эйнштейна, полученному с использованием энтропии Тсаллиса. Данный вывод справедлив как для всей совокупности контрактов, заключаемых участниками выполнения государственного оборонного заказа, так и контрактов, заключаемых отдельной организацией в качестве исполнителя.

    Для анализа степени соответствия эмпирических стоимостных распределений модифицированному распределению Бозе–Эйнштейна в настоящей работе использован метод сравнения соответствующих функций распределения вероятностей. В работе делается вывод о том, что для изучения стоимостных распределений контрактов отдельной организации в качестве анализируемых данных можно использовать сформировавшиеся за календарный год распределения выручки по отдельным заказам, соответствующим заключенным контрактам. Получены эмпирические функции распределения вероятностей ранжированных значений выручки от реализации по отдельным заказам АО «Концерн «ЦНИИ «Электроприбор», одной из ведущих приборостроительных организаций ОПК России, с 2007 по 2021 год. Наблюдается хорошее согласие между эмпирическими и теоретическими функциями распределений вероятностей, рассчитанными с использованием деформированных распределений Бозе–Эйнштейна в пределе «разряженного газа контрактов». Полученные на основе эмпирических данных значения параметров энтропийного индекса для каждого из изученных распределений выручки свидетельствуют о достаточно высокой степени неаддитивности, присущей изучаемой системе. Показано, что для оценки характеристических стоимостей распределений можно использовать величину среднего значения годовой выручки, рассчитанного с помощью нормированного эскортного распределения. Факт наилучшего согласия эмпирических и теоретических функций распределения вероятностей при нулевых значениях химического потенциала позволяет сделать предположение, что изучаемый «газ контрактов» можно сравнить с газом фотонов, в котором число частиц не является постоянным.

    Popov A.B.
    Nonextensive Tsallis statistics of contract system of prime contractors and subcontractors in defense industry
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1163-1183

    In this work, we analyze the system of contracts made by Russian defense enterprises in the process of state defense order execution. We conclude that methods of statistical mechanics can be applied to the description of the given system. Following the original grand-canonical ensemble approach, we can create the statistical ensemble under investigation as a set of instant snapshots of indistinguishable contracts having individual values. We show that due to government regulations of contract prices the contract system can be described in terms of nonextensive Tsallis statistics. We have found that probability distributions of contract prices correspond to deformed Bose – Einstein distributions obtained using nonextensive Tsallis entropy. This conclusion is true both in the case of the whole set of contracts and in the case of the contracts made by an individual defense company as a seller.

    In order to analyze how deformed Bose – Einstein distributions fit the empirical contract price distributions we compare the corresponding cumulative distribution functions. We conclude that annual distributions of individual sales which correspond to each company’s contract (order) can be used as relevant data for contract price distributions analysis. The empirical cumulative distribution functions for the individual sales ranking of Concern CSRI Elektropribor, one of the leading Russian defense companies, are analyzed for the period 2007–2021. The theoretical cumulative distribution functions, obtained using deformed Bose – Einstein distributions in the case of «rare contract gas» limit, fit well to the empirical cumulative distribution functions. The fitted values for the entropic index show that the degree of nonextensivity of the system under investigations is rather high. It is shown that the characteristic prices of distributions can be estimated by weighing the values of annual individual sales with the escort probabilities. Given that the fitted values of chemical potential are equal to zero, we suggest that «gas of contracts» can be compared to photon gas in which the number of particles is not conserved.

  7. Митин Н.А., Орлов Ю.Н.
    Статистический анализ биграмм специализированных текстов
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254

    Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.

    Mitin N.A., Orlov Y.N.
    Statistical analysis of bigrams of specialized texts
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 243-254

    The method of the stochastic matrix spectrum analysis is used to build an indicator that allows to determine the subject of scientific texts without keywords usage. This matrix is a matrix of conditional probabilities of bigrams, built on the statistics of the alphabet characters in the text without spaces, numbers and punctuation marks. Scientific texts are classified according to the mutual arrangement of invariant subspaces of the matrix of conditional probabilities of pairs of letter combinations. The separation indicator is the value of the cosine of the angle between the right and left eigenvectors corresponding to the maximum and minimum eigenvalues. The computational algorithm uses a special representation of the dichotomy parameter, which is the integral of the square norm of the resolvent of the stochastic matrix of bigrams along the circumference of a given radius in the complex plane. The tendency of the integral to infinity testifies to the approximation of the integration circuit to the eigenvalue of the matrix. The paper presents the typical distribution of the indicator of identification of specialties. For statistical analysis were analyzed dissertations on the main 19 specialties without taking into account the classification within the specialty, 20 texts for the specialty. It was found that the empirical distributions of the cosine of the angle for the mathematical and Humanities specialties do not have a common domain, so they can be formally divided by the value of this indicator without errors. Although the body of texts was not particularly large, nevertheless, in the case of arbitrary selection of dissertations, the identification error at the level of 2 % seems to be a very good result compared to the methods based on semantic analysis. It was also found that it is possible to make a text pattern for each of the specialties in the form of a reference matrix of bigrams, in the vicinity of which in the norm of summable functions it is possible to accurately identify the theme of the written scientific work, without using keywords. The proposed method can be used as a comparative indicator of greater or lesser severity of the scientific text or as an indicator of compliance of the text to a certain scientific level.

  8. Шлипаков Е.В., Утешев И.А., Аркушин М.М., Грянченко В.А., Щербаков Д.Е., Ященко И.В.
    Применение статистических методов для выявления аномалий в результатах экзаменов на уровне образовательной организации
    Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 537-552

    В работе рассматривается задача составления методики выявления аномалий с помощью методов математической статистики в результатах экзаменов на примере Основного государственного экзамена (ОГЭ) по математике 2023–2024 учебного года. Актуальность исследования обусловлена отсутствием обязательного видеоконтроля на ОГЭ в рассматриваемый период, что создает предпосылки для потенциальных процедурных нарушений как со стороны отдельных учащихся, так и в масштабах целых образовательных организаций. На основе анализа распределений первичных баллов были выявлены характерные особенности учебных заведений, свидетельствующие о возможной нечестности при проведении экзамена, в частности резкие скачки функции распределения в области перехода между неудовлетворительной и удовлетворительной оценками. С целью определения наиболее подозрительных результатов были построены два критерия аномальности. Первый критерий основан на сравнении величины скачка эмпирической функции распределения результатов школы с общерегиональным уровнем и позволяет выделить 47 организаций с аномально высокими значениями. Для построения второго (общего) критерия проведено сравнение баллов, полученных учениками школы на ОГЭ и диагностической работе по математике, проведенной в 8 классе с использованием видеоконтроля. Проведение такой аналогии является корректным, так как контингент обучающихся, принимавших участие в каждой из работ, практически совпадает. Данный подход позволяет сузить число выявленных аномалий, отделив те, которые более похожи на нарушения протоколов, от вызванных особенностями конкретного набора обучающихся и их подготовки к экзаменам в определенном учебном заведении. В результате применения одноклассового метода опорных векторов выявлены 12 образовательных организаций с нехарактерными аномальными результатами. Предложенная методика позволяет обнаруживать потенциальные случаи нечестного поведения при проведении экзамена и может быть использована для предотвращения нарушений протоколов с помощью проведения адресной профилактической работы с учебными заведениями.

    Shlipakov E.V., Uteshev I.A., Arkushin M.M., Gryanchenko V.A., Shcherbakov D.E., Yashchenko I.V.
    Statistical methods for detecting anomalies in examination results at the institutional level
    Computer Research and Modeling, 2026, v. 18, no. 2, pp. 537-552

    This study proposes a methodology for anomaly detection in educational assessment data, demonstrated on the case of the 2023–2024 Basic State Exam (BSE) in mathematics in Russia. The relevance of the study is related to the absence of mandatory video surveillance during the examination period, which creates a risk of potential rule violations both by individual students and by entire educational institutions. By analyzing the distribution of primary scores, we identify a big spike in the area between grades 2 and 3 as a specific pattern in results that may indicate cases of cheating during the exam. To determine the most suspicious results, two anomaly criteria were constructed. The first criterion relies on comparing the magnitude of the spike in empirical distribution function in school’s results with the corresponding regional average level. This criterion made it possible to identify 47 educational institutions with abnormally high values of the spike. The second (general) criterion was derived from comparing students’ scores on the examination with their performance on a diagnostic mathematics test conducted in grade 8 under video surveillance. This comparison is appropriate because almost the same group of students took part in both assessments. This approach helps reduce the number of detected anomalies by distinguishing those more likely to reflect actual protocol violations from those arising due to the specific characteristics of a particular student population and their exam preparation within a given educational institution. The application of the oneclass support vector machine method enabled the identification of 12 schools with atypical anomalous results. The proposed methodology could be useful for the detection of potential cases of cheating during exams and the development of methods for preventing such behavior. In particular, it can be used to support targeted preventive work with specific schools in order to reduce the risk of exam rule violations.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.