Текущий выпуск Номер 3, 2025 Том 17

Все выпуски

Результаты поиска по 'identifiability analysis':
Найдено статей: 52
  1. Сафиуллина Л.Ф., Губайдуллин И.М.
    Анализ идентифицируемости математической модели пиролиза пропана
    Компьютерные исследования и моделирование, 2021, т. 13, № 5, с. 1045-1057

    Работа посвящена численному моделированию и исследованию кинетической модели пиролиза пропана. Изучение кинетики реакций является необходимой стадией моделирования динамики газового потока в реакторе.

    Кинетическая модель представляет собой нелинейную систему обыкновенных дифференциальных уравнений первого порядка с параметрами, роль которых играют константы скоростей стадий. Математическое моделирование процесса основано на использовании закона сохранения масс. Для решения исходной (прямой) задачи используется неявный метод решения жестких систем обыкновенных дифференциальных уравнений. Модель содержит 60 входных кинетических параметров и 17 выходных параметров, соответствующих веществам реакции, из которых наблюдаемыми являются только 9. В процессе решения задачи по оценке параметров (обратная задача) возникает вопрос неединственности набора параметров, удовлетворяющего имеющимся экспериментальным данным. Поэтому перед решением обратной задачи проводится оценка возможности определения параметров модели — анализ идентифицируемости.

    Для анализа идентифицируемости мы используем ортогональный метод, который хорошо себя зарекомендовал для анализа моделей с большим числом параметров. Основу алгоритма составляет анализ матрицы чувствительно- сти методами дифференциальной и линейной алгебры, показывающей степень зависимости неизвестных параметров моделей от заданных измерений. Анализ чувствительности и идентифицируемости показал, что параметры модели устойчиво определяются по заданному набору экспериментальных данных. В статье представлен список параметров модели от наиболее идентифицируемого до наименее идентифицируемого. Учитывая анализ идентифицируемости математической модели, были введены более жесткие ограничения на поиск слабоидентифицируемых параметров при решении обратной задачи.

    Обратная задача по оценке параметров была решена с использованием генетического алгоритма. В статье представлены найденные оптимальные значения кинетических параметров. Представлено сравнение экспериментальных и расчетных зависимостей концентраций пропана, основных и побочных продуктов реакции от температуры для разных расходов смеси. На основании соответствия полученных результатов физико-химическим законам и экспериментальным данным сделан вывод об адекватности построенной математической модели.

    Safiullina L.F., Gubaydullin I.M.
    Analysis of the identifiability of the mathematical model of propane pyrolysis
    Computer Research and Modeling, 2021, v. 13, no. 5, pp. 1045-1057

    The article presents the numerical modeling and study of the kinetic model of propane pyrolysis. The study of the reaction kinetics is a necessary stage in modeling the dynamics of the gas flow in the reactor.

    The kinetic model of propane pyrolysis is a nonlinear system of ordinary differential equations of the first order with parameters, the role of which is played by the reaction rate constants. Math modeling of processes is based on the use of the mass conservation law. To solve an initial (forward) problem, implicit methods for solving stiff ordinary differential equation systems are used. The model contains 60 input kinetic parameters and 17 output parameters corresponding to the reaction substances, of which only 9 are observable. In the process of solving the problem of estimating parameters (inverse problem), there is a question of non-uniqueness of the set of parameters that satisfy the experimental data. Therefore, before solving the inverse problem, the possibility of determining the parameters of the model is analyzed (analysis of identifiability).

    To analyze identifiability, we use the orthogonal method, which has proven itself well for analyzing models with a large number of parameters. The algorithm is based on the analysis of the sensitivity matrix by the methods of differential and linear algebra, which shows the degree of dependence of the unknown parameters of the models on the given measurements. The analysis of sensitivity and identifiability showed that the parameters of the model are stably determined from a given set of experimental data. The article presents a list of model parameters from most to least identifiable. Taking into account the analysis of the identifiability of the mathematical model, restrictions were introduced on the search for less identifiable parameters when solving the inverse problem.

    The inverse problem of estimating the parameters was solved using a genetic algorithm. The article presents the found optimal values of the kinetic parameters. A comparison of the experimental and calculated dependences of the concentrations of propane, main and by-products of the reaction on temperature for different flow rates of the mixture is presented. The conclusion about the adequacy of the constructed mathematical model is made on the basis of the correspondence of the results obtained to physicochemical laws and experimental data.

  2. При определении лечебных поглощенных доз в процессе радиойодтерапии в отечественной медицине все чаще используется метод индивидуального дозиметрического планирования (ИДП). Однако для успешной реализации данного метода необходимо наличие соответствующего программного обеспечения, позволяющего произвести моделирование фармакокинетики радиойода в организме пациента и рассчитать необходимую терапевтическую активность радиофармацевтического лекарственного препарата (РФЛП) для достижения в щитовидной железе запланированной лечебной поглощенной дозы.

    Цель работы — разработка программного комплекса фармакокинетического моделирования и расчета индивидуальных поглощенных доз при радиойодтерапии на основе пятикамерной модели кинетики радиойода с применением двух математических методов оптимизации. Работа основана на принципах и методах фармакокинетики РФЛП (камерное моделирование). Для нахождения минимума функционала невязки при идентификации значений транспортных констант модели были использованы метод Хука – Дживса и метод имитации отжига. Расчет дозиметрических характеристик и вводимой терапевтической активности основан на методике расчета поглощенных доз через найденные в процессе моделирования функции активностей радиойода в камерах. Для идентификации параметров модели использованы результаты радиометрии щитовидной железы и мочи пациентов с введенным в организм радиойодом.

    Разработан программный комплекс моделирования кинетики радиойода при его пероральном поступлении в организм. Для пациентов с диффузным токсическим зобом идентифицированы транспортные константы модели и рассчитаны индивидуальные фармакокинетические и дозиметрические характеристики (периоды полувыведения, максимальная активность в щитовидной железе и время ее достижения, поглощенные дозы на критические органы и ткани, вводимая терапевтическая активность). Получены и проанализированы зависимости «активность – время» для всех камер модели. Проведен сравнительный анализ фармакокинетических и дозиметрических характеристик, рассчитанных в рамках двух математических методов оптимизации. Осуществлена оценка stunning-эффекта и его вклад в погрешности расчета поглощенных доз. Из сравнительного анализа рассчитанных в рамках двух методов оптимизации фармакокинетических и дозиметрических характеристик следует, что использование более сложного математического метода имитации отжига в программном комплексе не приводит к существенным изменениям в значениях характеристик по сравнению с простым методом Хука – Дживса. Погрешности расчета поглощенных доз в рамках этих математических методов оптимизации не превышают вариации значений поглощенных доз от stunning-эффекта.

    Matveev A.V.
    Mathematical features of individual dosimetric planning of radioiodotherapy based on pharmacokinetic modeling
    Computer Research and Modeling, 2024, v. 16, no. 3, pp. 773-784

    When determining therapeutic absorbed doses in the process of radioiodine therapy, the method of individual dosimetric planning is increasingly used in Russian medicine. However, for the successful implementation of this method, it is necessary to have appropriate software that allows modeling the pharmacokinetics of radioiodine in the patient’s body and calculate the necessary therapeutic activity of a radiopharmaceutical drug to achieve the planned therapeutic absorbed dose in the thyroid gland.

    Purpose of the work: development of a software package for pharmacokinetic modeling and calculation of individual absorbed doses in radioiodine therapy based on a five-chamber model of radioiodine kinetics using two mathematical optimization methods. The work is based on the principles and methods of RFLP pharmacokinetics (chamber modeling). To find the minimum of the residual functional in identifying the values of the transport constants of the model, the Hook – Jeeves method and the simulated annealing method were used. Calculation of dosimetric characteristics and administered therapeutic activity is based on the method of calculating absorbed doses using the functions of radioiodine activity in the chambers found during modeling. To identify the parameters of the model, the results of radiometry of the thyroid gland and urine of patients with radioiodine introduced into the body were used.

    A software package for modeling the kinetics of radioiodine during its oral intake has been developed. For patients with diffuse toxic goiter, the transport constants of the model were identified and individual pharmacokinetic and dosimetric characteristics (elimination half-lives, maximum thyroid activity and time to reach it, absorbed doses to critical organs and tissues, administered therapeutic activity) were calculated. The activity-time relationships for all cameras in the model are obtained and analyzed. A comparative analysis of the calculated pharmacokinetic and dosimetric characteristics calculated using two mathematical optimization methods was performed. Evaluation completed the stunning-effect and its contribution to the errors in calculating absorbed doses. From a comparative analysis of the pharmacokinetic and dosimetric characteristics calculated in the framework of two optimization methods, it follows that the use of a more complex mathematical method for simulating annealing in a software package does not lead to significant changes in the values of the characteristics compared to the simple Hook – Jeeves method. Errors in calculating absorbed doses in the framework of these mathematical optimization methods do not exceed the spread of absorbed dose values from the stunning-effect.

  3. Борисова Л.Р., Кузнецова А.В., Сергеева Н.В., Сенько О.В.
    Применение методов машинного обучения для сравнения компаний Арктической зоны РФ по экономическим критериям в соответствии с рейтингом Полярного индекса
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 201-215

    В работе проведен сравнительный анализ предприятий Арктической зоны Российской Федерации (АЗ РФ) по экономическим показателям в соответствии с рейтингом Полярного индекса. В исследование включены числовые данные 193 предприятий, находящихся в АЗ РФ. Применены методы машинного обучения, как стандартные, из открытых ресурсов, так и собственные оригинальные методы — метод оптимально достоверных разбиений (ОДР), метод статистически взвешенных синдромов (СВС). Проведено разбиение с указанием максимального значения функционала качества, в данном исследовании использовалось простейшее семейство разнообразных одномерных разбиений с одной-единственной граничной точкой, а также семейство различных двумерных разбиений с одной граничной точкой по каждой из двух объединяющих переменных. Перестановочные тесты позволяют не только оценивать достоверность данных выявленных закономерностей, но и исключать из множества выявленных закономерностей разбиения с избыточной сложностью.

    Использование метода ОДР на одномерных показателях выявило закономерности, которые связывают номер класса с экономическими показателями. Также в приведенном исследовании представлены закономерности, которые выявлены в рамках простейшей одномерной модели с одной граничной точкой и со значимостью не хуже чем $p < 0.001$.

    Для достоверной оценки подобной диагностической способности использовали так называемый метод скользящего контроля. В результате этих исследований был выделен целый набор методов, которые обладали достаточной эффективностью.

    Коллективный метод по результатам нескольких методов машинного обучения показал высокую значимость экономических показателей для разделения предприятий в соответствии с рейтингом Полярного индекса.

    Наше исследование доказало и показало, что те предприятия, которые вошли в топ рейтинга Полярного индекса, в целом распознаются по финансовым показателям среди всех компаний Арктической зоны. Вместе с тем представляется целесообразным включение в анализ также экологических и социальных факторов.

    Borisova L.R., Kuznetsova A.V., Sergeeva N.V., Sen'ko O.V.
    Comparison of Arctic zone RF companies with different Polar Index ratings by economic criteria with the help of machine learning tools
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 201-215

    The paper presents a comparative analysis of the enterprises of the Arctic Zone of the Russian Federation (AZ RF) on economic indicators in accordance with the rating of the Polar index. This study includes numerical data of 193 enterprises located in the AZ RF. Machine learning methods are applied, both standard, from open source, and own original methods — the method of Optimally Reliable Partitions (ORP), the method of Statistically Weighted Syndromes (SWS). Held split, indicating the maximum value of the functional quality, this study used the simplest family of different one-dimensional partition with a single boundary point, as well as a collection of different two-dimensional partition with one boundary point on each of the two combining variables. Permutation tests allow not only to evaluate the reliability of the data of the revealed regularities, but also to exclude partitions with excessive complexity from the set of the revealed regularities. Patterns connected the class number and economic indicators are revealed using the SDT method on one-dimensional indicators. The regularities which are revealed within the framework of the simplest one-dimensional model with one boundary point and with significance not worse than p < 0.001 are also presented in the given study. The so-called sliding control method was used for reliable evaluation of such diagnostic ability. As a result of these studies, a set of methods that had sufficient effectiveness was identified. The collective method based on the results of several machine learning methods showed the high importance of economic indicators for the division of enterprises in accordance with the rating of the Polar index. Our study proved and showed that those companies that entered the top Rating of the Polar index are generally recognized by financial indicators among all companies in the Arctic Zone. However it would be useful to supplement the list of indicators with ecological and social criteria.

  4. Коваленко И.Б., Древаль В.Д., Федоров В.А., Холина Е.Г., Гудимчук Н.Б.
    Описание изгибов протофиламентов микротрубочек
    Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 435-443

    Работа посвящена анализу конформационных изменений в димерах и тетрамерах тубулина, в частности оценке изгиба составленных из них протофиламентов. В работе рассмотрено три недавно использованных подхода для оценки изгиба тубулиновых протофиламентов: (1) измерение угла между вектором, проходящим через H7 спирали в $\alpha$- и $\beta$-мономерах тубулина в прямой структуре, и таким же вектором в изогнутой структуре тубулина; (2) измерение угла между вектором, соединяющим центры масс субъединицы и связанного с ней ГТФ- нуклеотида, и вектором, связывающим центры масс того же нуклеотида и соседней субъединицы тубулина; (3) измерение трех углов вращения субъединицы тубулина в изогнутой структуре димера тубулина относительно аналогичной субъединицы в прямой структуре димера тубулина. Приведены рассчитанные в соответствии с описанными тремя метриками количественные оценки углов на внутри- и междимерных интерфейсах тубулина в опубликованных кристаллических структурах. Внутридимерные углы тубулина в одной структуре, измеренные по методу (3), как и измерения этим методом внутридимерных углов в разных структурах, были более схожи, чем при использовании других методов, что говорит о меньшей чувствительности метода к локальным изменениям конформации тубулина, и характеризует метод в целом как более устойчивый. Измерения кривизны тубулина по углу между H7-спиралями дают несколько заниженную оценку удельной кривизны тубулина на димер, а метод (2), хотя на первый взгляд и дает цифры, также довольно хорошо совпадающие с оценками криоэлектронной микроскопии, существенно завышает углы даже на прямых структурах. Для структур тетрамеров тубулина в комплексе с белком статмином углы изгиба, рассчитанные по всем трем метрикам, различались для первого и второго димеров довольно существенно (до 20 % и больше), что говорит о чувствительности всех метрик к незначительным вариациям в конформации димеров тубулина внутри этих комплексов. Подробное описание процедур измерения изгибов тубулиновых протофиламентов, а также выявление преимуществ и недостатков различных метрик позволит увеличить воспроизводимость и четкость анализа структур тубулина в будущем, а также позволит облегчить сопоставление результатов, полученных различными научными группами.

    Kovalenko I.B., Dreval V.D., Fedorov V.A., Kholina E.G., Gudimchuk N.B.
    Microtubule protofilament bending characterization
    Computer Research and Modeling, 2020, v. 12, no. 2, pp. 435-443

    This work is devoted to the analysis of conformational changes in tubulin dimers and tetramers, in particular, the assessment of the bending of microtubule protofilaments. Three recently exploited approaches for estimating the bend of tubulin protofilaments are reviewed: (1) measurement of the angle between the vector passing through the H7 helices in $\alpha$ and $\beta$ tubulin monomers in the straight structure and the same vector in the curved structure of tubulin; (2) measurement of the angle between the vector, connecting the centers of mass of the subunit and the associated GTP nucleotide, and the vector, connecting the centers of mass of the same nucleotide and the adjacent tubulin subunit; (3) measurement of the three rotation angles of the bent tubulin subunit relative to the straight subunit. Quantitative estimates of the angles calculated at the intra- and inter-dimer interfaces of tubulin in published crystal structures, calculated in accordance with the three metrics, are presented. Intra-dimer angles of tubulin in one structure, measured by the method (3), as well as measurements by this method of the intra-dimer angles in different structures, were more similar, which indicates a lower sensitivity of the method to local changes in tubulin conformation and characterizes the method as more robust. Measuring the angle of curvature between H7-helices (method 1) produces somewhat underestimated values of the curvature per dimer. Method (2), while at first glance generating the bending angle values, consistent the with estimates of curved protofilaments from cryoelectron microscopy, significantly overestimates the angles in the straight structures. For the structures of tubulin tetramers in complex with the stathmin protein, the bending angles calculated with all three metrics varied quite significantly for the first and second dimers (up to 20% or more), which indicates the sensitivity of all metrics to slight variations in the conformation of tubulin dimers within these complexes. A detailed description of the procedures for measuring the bending of tubulin protofilaments, as well as identifying the advantages and disadvantages of various metrics, will increase the reproducibility and clarity of the analysis of tubulin structures in the future, as well as it will hopefully make it easier to compare the results obtained by various scientific groups.

  5. Козырь П.С., Савельев А.И.
    Анализ эффективности методов машинного обучения в задаче распознавания жестов на основе данных электромиографических сигналов
    Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 175-194

    При разработке систем человеко-машинных интерфейсов актуальной является задача распознавания жестов. Для выявления наиболее эффективного метода распознавания жестов был проведен анализ различных методов машинного обучения, используемых для классификации движений на основе электромиографических сигналов мышц. Были рассмотрены такие методы, как наивный байесовский классификатор (НБК), дерево решений, случайный лес, градиентный бустинг, метод опорных векторов, метод $k$-ближайших соседей, а также ансамбли методов (НБК и дерево решений, НБК и градиентный бустинг, градиентный бустинг и дерево решений). В качестве метода получения информации о жестах была выбрана электромиография. Такое решение не требует расположения руки в поле зрения камеры и может быть использовано для распознавания движений пальцев рук. Для проверки эффективности выбранных методов распознавания жестов было разработано устройство регистрации электромиографического сигнала мышц предплечья, которое включает в себя три электрода и ЭМГ-датчик, соединенный с микрокон- троллером и блоком питания. В качестве жестов были выбраны: сжатие кулака, знак «большой палец», знак «Виктория», сжатие указательного пальца и взмах рукой справа налево. Оценка эффективности методов классификации проводилась на основе значений доли правильных ответов, точности, полноты, а также среднего значения времени работы классификатора. Данные параметры были рассчитаны для трех вариантов расположения электромиографических электродов на предплечье. По результатам тести- рования, наиболее эффективными методами являются метод $k$-ближайших соседей, случайный лес и ансамбль НБК и градиентного бустинга, средняя точность которого для трех положений электродов составила 81,55 %. Также было определено положение электродов, при котором методы машинного обучения достигают максимального значения точности распознавания. При таком положении один из дифференциальных электродов располагается на месте пересечения глубокого сгибателя пальцев и длинного сгибателя большого пальца, второй — над поверхностным сгибателем пальцев

    Gesture recognition is an urgent challenge in developing systems of human-machine interfaces. We analyzed machine learning methods for gesture classification based on electromyographic muscle signals to identify the most effective one. Methods such as the naive Bayesian classifier (NBC), logistic regression, decision tree, random forest, gradient boosting, support vector machine (SVM), $k$-nearest neighbor algorithm, and ensembles (NBC and decision tree, NBC and gradient boosting, gradient boosting and decision tree) were considered. Electromyography (EMG) was chosen as a method of obtaining information about gestures. This solution does not require the location of the hand in the field of view of the camera and can be used to recognize finger movements. To test the effectiveness of the selected methods of gesture recognition, a device was developed for recording the EMG signal, which includes three electrodes and an EMG sensor connected to the microcontroller and the power supply. The following gestures were chosen: clenched fist, “thumb up”, “Victory”, squeezing an index finger and waving a hand from right to left. Accuracy, precision, recall and execution time were used to evaluate the effectiveness of classifiers. These parameters were calculated for three options for the location of EMG electrodes on the forearm. According to the test results, the most effective methods are $k$-nearest neighbors’ algorithm, random forest and the ensemble of NBC and gradient boosting, the average accuracy of ensemble for three electrode positions was 81.55%. The position of the electrodes was also determined at which machine learning methods achieve the maximum accuracy. In this position, one of the differential electrodes is located at the intersection of the flexor digitorum profundus and flexor pollicis longus, the second — above the flexor digitorum superficialis.

  6. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183

    Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.

  7. Зенков А.В.
    Новый метод стилеметрии на основе статистики числительных
    Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 837-850

    Предложен новый метод статистического анализа текстов. Исследовано распределение частот различных первых значащих цифр в числительных англоязычных текстов. Учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно. Предварительно из текста удаляются случайно попавшие в него числительные, не отражающие авторский замысел (номера страниц, маркеры списков, идиоматические выражения, устойчивые обороты речи и тому подобное). Обнаружено, что для сборных текстов разного авторства частоты первых значащих цифр приближенно соответствуют известному закону Бенфорда, но с резким преобладанием встречаемости единицы. В связных авторских текстах возникают характерные отклонения от закона Бенфорда; показано, что эти отклонения являются статистически устойчивыми и значимыми авторскими особенностями, позволяющими при определенных условиях ответить на вопрос об авторстве и различить тексты разных авторов. Требуется, чтобы текст был достаточно длинным (не менее чем порядка 200 кБ). Распределение первых значащих цифр конца ряда $\{1, 2, \ldots, 8, 9\}$ подвержено сильным флуктуациям и не показательно для нашей цели. Цель теоретического обоснования найденной эмпирической закономерности в работе не ставится, но продемонстрировано ее практическое использование для атрибуции текстов. Предлагаемый подход и сделанные выводы подкреплены примерами компьютерного анализа художественных текстов У. М. Теккерея, М. Твена, Р. Л. Стивенсона, Дж.Джойса, сестер Бронте, Дж.Остин. На основе разработанной методологии рассмотрены проблемы авторства текста, ранее приписывавшегося Л.Ф. Бауму (результат согласуется с полученным другими методами), а также известного романа Харпер Ли «Убить пересмешника»; показано, что к написанию первоначального варианта этой книги («Пойди, поставь сторожа») мог быть причастен Трумен Капоте, но финальный текст, вероятно, принадлежит Харпер Ли. Результаты подтверждены на основе параметрического критерия Пирсона, а также непараметрических U-критерия Манна–Уитни и критерия Крускала–Уоллиса.

    Zenkov A.V.
    A novel method of stylometry based on the statistic of numerals
    Computer Research and Modeling, 2017, v. 9, no. 5, pp. 837-850

    A new method of statistical analysis of texts is suggested. The frequency distribution of the first significant digits in numerals of English-language texts is considered. We have taken into account cardinal as well as ordinal numerals expressed both in figures, and verbally. To identify the author’s use of numerals, we previously deleted from the text all idiomatic expressions and set phrases accidentally containing numerals, as well as itemizations and page numbers, etc. Benford’s law is found to hold approximately for the frequencies of various first significant digits of compound literary texts by different authors; a marked predominance of the digit 1 is observed. In coherent authorial texts, characteristic deviations from Benford’s law arise which are statistically stable significant author peculiarities that allow, under certain conditions, to consider the problem of authorship and distinguish between texts by different authors. The text should be large enough (at least about 200 kB). At the end of $\{1, 2, \ldots, 9\}$ digits row, the frequency distribution is subject to strong fluctuations and thus unrepresentative for our purpose. The aim of the theoretical explanation of the observed empirical regularity is not intended, which, however, does not preclude the applicability of the proposed methodology for text attribution. The approach suggested and the conclusions are backed by the examples of the computer analysis of works by W.M. Thackeray, M. Twain, R. L. Stevenson, J. Joyce, sisters Bront¨e, and J.Austen. On the basis of technique suggested, we examined the authorship of a text earlier ascribed to L. F. Baum (the result agrees with that obtained by different means). We have shown that the authorship of Harper Lee’s “To Kill a Mockingbird” pertains to her, whereas the primary draft, “Go Set a Watchman”, seems to have been written in collaboration with Truman Capote. All results are confirmed on the basis of parametric Pearson’s chi-squared test as well as non-parametric Mann –Whitney U test and Kruskal –Wallis test.

    Просмотров за год: 10.
  8. Работа посвящена анализу медико-биологических данных, получаемых с помощью локомоторных тренировок и тестирований космонавтов, проводимых как на Земле, так и во время полета. Данные эксперименты можно описать как движение космонавта по беговой дорожке согласно прописанному регламенту в различных скоростных режимах, во время которых не только записывается скорость, но и собирается ряд показателей, включающих частоту сердечных сокращений, величину давления на опору и пр. С целью анализа динамики состояния космонавта на протяжении длительного времени, для независимой оценки целевых показателей необходимо проводить качественную сегментацию режимов его движения. Особую актуальность данная задача приобретает при разработке автономной системы жизнеобеспечения космонавтов, которая будет действовать без сопровождения персонала с Земли. При сегментации целевых данных сложность заключается в наличии различных аномалий, включая отход испытуемого от заранее прописанного регламента, переходы между режимами движения произвольного вида и длительности, аппаратные сбои и пр. Статья включает в себя подробный обзор ряда современных ретроспективных (оффлайн) непараметрических методов поиска многократных разладок во временном ряде, где под разладкой понимается резкое изменение свойств наблюдаемого ряда, происходящее в неизвестный заранее момент времени. Особое внимание уделено алгоритмам и статистическим показателям, которые определяют степень однородности данных, а также способам поиска точек разладки. В данной работе рассматриваются подходы, основанные на методах динамического программирования и скользящего окна. Вторая часть статьи посвящена численному моделированию представленных методов на характерных примерах экспериментальных данных, включающих как простые, так и сложные скоростные профили движения. Проведенный анализ позволил выделить методы, которые в дальнейшем будут проанализированы на полном корпусе данных. Предпочтение отдается методам, обеспечивающим близость разметки к заданному эталону, потенциально позволяющим детектировать обе границы переходных процессов, а также обладающим робастностью относительно внутренних параметров.

    Shestoperov A.I., Ivchenko A.V., Fomina E.V.
    Changepoint detection in biometric data: retrospective nonparametric segmentation methods based on dynamic programming and sliding windows
    Computer Research and Modeling, 2024, v. 16, no. 5, pp. 1295-1321

    This paper is dedicated to the analysis of medical and biological data obtained through locomotor training and testing of astronauts conducted both on Earth and during spaceflight. These experiments can be described as the astronaut’s movement on a treadmill according to a predefined regimen in various speed modes. During these modes, not only the speed is recorded but also a range of parameters, including heart rate, ground reaction force, and others, are collected. In order to analyze the dynamics of the astronaut’s condition over an extended period, it is necessary to perform a qualitative segmentation of their movement modes to independently assess the target metrics. This task becomes particularly relevant in the development of an autonomous life support system for astronauts that operates without direct supervision from Earth. The segmentation of target data is complicated by the presence of various anomalies, such as deviations from the predefined regimen, arbitrary and varying duration of mode transitions, hardware failures, and other factors. The paper includes a detailed review of several contemporary retrospective (offline) nonparametric methods for detecting multiple changepoints, which refer to sudden changes in the properties of the observed time series occurring at unknown moments. Special attention is given to algorithms and statistical measures that determine the homogeneity of the data and methods for detecting change points. The paper considers approaches based on dynamic programming and sliding window methods. The second part of the paper focuses on the numerical modeling of these methods using characteristic examples of experimental data, including both “simple” and “complex” speed profiles of movement. The analysis conducted allowed us to identify the preferred methods, which will be further evaluated on the complete dataset. Preference is given to methods that ensure the closeness of the markup to a reference one, potentially allow the detection of both boundaries of transient processes, as well as are robust relative to internal parameters.

  9. Митин Н.А., Орлов Ю.Н.
    Статистический анализ биграмм специализированных текстов
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254

    Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.

    Mitin N.A., Orlov Y.N.
    Statistical analysis of bigrams of specialized texts
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 243-254

    The method of the stochastic matrix spectrum analysis is used to build an indicator that allows to determine the subject of scientific texts without keywords usage. This matrix is a matrix of conditional probabilities of bigrams, built on the statistics of the alphabet characters in the text without spaces, numbers and punctuation marks. Scientific texts are classified according to the mutual arrangement of invariant subspaces of the matrix of conditional probabilities of pairs of letter combinations. The separation indicator is the value of the cosine of the angle between the right and left eigenvectors corresponding to the maximum and minimum eigenvalues. The computational algorithm uses a special representation of the dichotomy parameter, which is the integral of the square norm of the resolvent of the stochastic matrix of bigrams along the circumference of a given radius in the complex plane. The tendency of the integral to infinity testifies to the approximation of the integration circuit to the eigenvalue of the matrix. The paper presents the typical distribution of the indicator of identification of specialties. For statistical analysis were analyzed dissertations on the main 19 specialties without taking into account the classification within the specialty, 20 texts for the specialty. It was found that the empirical distributions of the cosine of the angle for the mathematical and Humanities specialties do not have a common domain, so they can be formally divided by the value of this indicator without errors. Although the body of texts was not particularly large, nevertheless, in the case of arbitrary selection of dissertations, the identification error at the level of 2 % seems to be a very good result compared to the methods based on semantic analysis. It was also found that it is possible to make a text pattern for each of the specialties in the form of a reference matrix of bigrams, in the vicinity of which in the norm of summable functions it is possible to accurately identify the theme of the written scientific work, without using keywords. The proposed method can be used as a comparative indicator of greater or lesser severity of the scientific text or as an indicator of compliance of the text to a certain scientific level.

  10. Малков С.Ю., Давыдова О.И.
    Модернизация как глобальный процесс: опыт математического моделирования
    Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 859-873

    В статье проведен анализ эмпирических данных по долгосрочной демографической и экономической динамике стран мира за период с начала XIX века по настоящее время. В качестве показателей, характеризующих долгосрочную демографическую и экономическую динамику стран мира, были выбраны данные по численности населения и ВВП ряда стран мира за период 1500–2016 годов. Страны выбирались таким образом, чтобы в их число вошли представители с различным уровнем развития (развитые и развивающиеся страны), а также страны из различных регионов мира (Северная Америка, Южная Америка, Европа, Азия, Африка). Для моделирования и обработки данных использована специально разработанная математическая модель. Представленная модель является автономной системой дифференциальных уравнений, которая описывает процессы социально-экономической модернизации, в том числе процесс перехода от аграрного общества к индустриальному и постиндустриальному. В модель заложена идея о том, что процесс модернизации начинается с возникновения в традиционном обществе инновационного сектора, развивающегося на основе новых технологий. Население из традиционного сектора постепенно перемещается в инновационный сектор. Модернизация завершается, когда большая часть населения переходит в инновационный сектор.

    При работе с моделью использовались статистические методы обработки данных, методы Big Data, включая иерархическую кластеризацию. С помощью разработанного алгоритма на базе метода случайного спуска были идентифицированы параметры модели и проведена ее верификация на основе эмпирических рядов, а также проведено тестирование модели с использованием статистических данных, отражающих изменения, наблюдаемые в развитых и развивающихся странах в период происходящей в течение последних столетий модернизации. Тестирование модели продемонстрировало ее высокое качество — отклонения расчетных кривых от статистических данных, как правило, небольшие и происходят в периоды войн и экономических кризисов. Проведенный анализ статистических данных по долгосрочной демографической и экономической динамике стран мира позволил определить общие закономерности и формализовать их в виде математической модели. Модель будет использоваться с целью прогноза демографической и экономической динамики в различных странах мира.

    Malkov S.Yu., Davydova O.I.
    Modernization as a global process: the experience of mathematical modeling
    Computer Research and Modeling, 2021, v. 13, no. 4, pp. 859-873

    The article analyzes empirical data on the long-term demographic and economic dynamics of the countries of the world for the period from the beginning of the 19th century to the present. Population and GDP of a number of countries of the world for the period 1500–2016 were selected as indicators characterizing the long-term demographic and economic dynamics of the countries of the world. Countries were chosen in such a way that they included representatives with different levels of development (developed and developing countries), as well as countries from different regions of the world (North America, South America, Europe, Asia, Africa). A specially developed mathematical model was used for modeling and data processing. The presented model is an autonomous system of differential equations that describes the processes of socio-economic modernization, including the process of transition from an agrarian society to an industrial and post-industrial one. The model contains the idea that the process of modernization begins with the emergence of an innovative sector in a traditional society, developing on the basis of new technologies. The population is gradually moving from the traditional sector to the innovation sector. Modernization is completed when most of the population moves to the innovation sector.

    Statistical methods of data processing and Big Data methods, including hierarchical clustering were used. Using the developed algorithm based on the random descent method, the parameters of the model were identified and verified on the basis of empirical series, and the model was tested using statistical data reflecting the changes observed in developed and developing countries during the period of modernization taking place over the past centuries. Testing the model has demonstrated its high quality — the deviations of the calculated curves from statistical data are usually small and occur during periods of wars and economic crises. Thus, the analysis of statistical data on the long-term demographic and economic dynamics of the countries of the world made it possible to determine general patterns and formalize them in the form of a mathematical model. The model will be used to forecast demographic and economic dynamics in different countries of the world.

Страницы: « первая предыдущая следующая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.