Текущий выпуск Номер 5, 2024 Том 16

Все выпуски

Результаты поиска по 'identifiability analysis':
Найдено статей: 46
  1. Зенков А.В.
    Новый метод стилеметрии на основе статистики числительных
    Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 837-850

    Предложен новый метод статистического анализа текстов. Исследовано распределение частот различных первых значащих цифр в числительных англоязычных текстов. Учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно. Предварительно из текста удаляются случайно попавшие в него числительные, не отражающие авторский замысел (номера страниц, маркеры списков, идиоматические выражения, устойчивые обороты речи и тому подобное). Обнаружено, что для сборных текстов разного авторства частоты первых значащих цифр приближенно соответствуют известному закону Бенфорда, но с резким преобладанием встречаемости единицы. В связных авторских текстах возникают характерные отклонения от закона Бенфорда; показано, что эти отклонения являются статистически устойчивыми и значимыми авторскими особенностями, позволяющими при определенных условиях ответить на вопрос об авторстве и различить тексты разных авторов. Требуется, чтобы текст был достаточно длинным (не менее чем порядка 200 кБ). Распределение первых значащих цифр конца ряда $\{1, 2, \ldots, 8, 9\}$ подвержено сильным флуктуациям и не показательно для нашей цели. Цель теоретического обоснования найденной эмпирической закономерности в работе не ставится, но продемонстрировано ее практическое использование для атрибуции текстов. Предлагаемый подход и сделанные выводы подкреплены примерами компьютерного анализа художественных текстов У. М. Теккерея, М. Твена, Р. Л. Стивенсона, Дж.Джойса, сестер Бронте, Дж.Остин. На основе разработанной методологии рассмотрены проблемы авторства текста, ранее приписывавшегося Л.Ф. Бауму (результат согласуется с полученным другими методами), а также известного романа Харпер Ли «Убить пересмешника»; показано, что к написанию первоначального варианта этой книги («Пойди, поставь сторожа») мог быть причастен Трумен Капоте, но финальный текст, вероятно, принадлежит Харпер Ли. Результаты подтверждены на основе параметрического критерия Пирсона, а также непараметрических U-критерия Манна–Уитни и критерия Крускала–Уоллиса.

    Zenkov A.V.
    A novel method of stylometry based on the statistic of numerals
    Computer Research and Modeling, 2017, v. 9, no. 5, pp. 837-850

    A new method of statistical analysis of texts is suggested. The frequency distribution of the first significant digits in numerals of English-language texts is considered. We have taken into account cardinal as well as ordinal numerals expressed both in figures, and verbally. To identify the author’s use of numerals, we previously deleted from the text all idiomatic expressions and set phrases accidentally containing numerals, as well as itemizations and page numbers, etc. Benford’s law is found to hold approximately for the frequencies of various first significant digits of compound literary texts by different authors; a marked predominance of the digit 1 is observed. In coherent authorial texts, characteristic deviations from Benford’s law arise which are statistically stable significant author peculiarities that allow, under certain conditions, to consider the problem of authorship and distinguish between texts by different authors. The text should be large enough (at least about 200 kB). At the end of $\{1, 2, \ldots, 9\}$ digits row, the frequency distribution is subject to strong fluctuations and thus unrepresentative for our purpose. The aim of the theoretical explanation of the observed empirical regularity is not intended, which, however, does not preclude the applicability of the proposed methodology for text attribution. The approach suggested and the conclusions are backed by the examples of the computer analysis of works by W.M. Thackeray, M. Twain, R. L. Stevenson, J. Joyce, sisters Bront¨e, and J.Austen. On the basis of technique suggested, we examined the authorship of a text earlier ascribed to L. F. Baum (the result agrees with that obtained by different means). We have shown that the authorship of Harper Lee’s “To Kill a Mockingbird” pertains to her, whereas the primary draft, “Go Set a Watchman”, seems to have been written in collaboration with Truman Capote. All results are confirmed on the basis of parametric Pearson’s chi-squared test as well as non-parametric Mann –Whitney U test and Kruskal –Wallis test.

    Просмотров за год: 10.
  2. Работа посвящена анализу медико-биологических данных, получаемых с помощью локомоторных тренировок и тестирований космонавтов, проводимых как на Земле, так и во время полета. Данные эксперименты можно описать как движение космонавта по беговой дорожке согласно прописанному регламенту в различных скоростных режимах, во время которых не только записывается скорость, но и собирается ряд показателей, включающих частоту сердечных сокращений, величину давления на опору и пр. С целью анализа динамики состояния космонавта на протяжении длительного времени, для независимой оценки целевых показателей необходимо проводить качественную сегментацию режимов его движения. Особую актуальность данная задача приобретает при разработке автономной системы жизнеобеспечения космонавтов, которая будет действовать без сопровождения персонала с Земли. При сегментации целевых данных сложность заключается в наличии различных аномалий, включая отход испытуемого от заранее прописанного регламента, переходы между режимами движения произвольного вида и длительности, аппаратные сбои и пр. Статья включает в себя подробный обзор ряда современных ретроспективных (оффлайн) непараметрических методов поиска многократных разладок во временном ряде, где под разладкой понимается резкое изменение свойств наблюдаемого ряда, происходящее в неизвестный заранее момент времени. Особое внимание уделено алгоритмам и статистическим показателям, которые определяют степень однородности данных, а также способам поиска точек разладки. В данной работе рассматриваются подходы, основанные на методах динамического программирования и скользящего окна. Вторая часть статьи посвящена численному моделированию представленных методов на характерных примерах экспериментальных данных, включающих как простые, так и сложные скоростные профили движения. Проведенный анализ позволил выделить методы, которые в дальнейшем будут проанализированы на полном корпусе данных. Предпочтение отдается методам, обеспечивающим близость разметки к заданному эталону, потенциально позволяющим детектировать обе границы переходных процессов, а также обладающим робастностью относительно внутренних параметров.

    Shestoperov A.I., Ivchenko A.V., Fomina E.V.
    Changepoint detection in biometric data: retrospective nonparametric segmentation methods based on dynamic programming and sliding windows
    Computer Research and Modeling, 2024, v. 16, no. 5, pp. 1295-1321

    This paper is dedicated to the analysis of medical and biological data obtained through locomotor training and testing of astronauts conducted both on Earth and during spaceflight. These experiments can be described as the astronaut’s movement on a treadmill according to a predefined regimen in various speed modes. During these modes, not only the speed is recorded but also a range of parameters, including heart rate, ground reaction force, and others, are collected. In order to analyze the dynamics of the astronaut’s condition over an extended period, it is necessary to perform a qualitative segmentation of their movement modes to independently assess the target metrics. This task becomes particularly relevant in the development of an autonomous life support system for astronauts that operates without direct supervision from Earth. The segmentation of target data is complicated by the presence of various anomalies, such as deviations from the predefined regimen, arbitrary and varying duration of mode transitions, hardware failures, and other factors. The paper includes a detailed review of several contemporary retrospective (offline) nonparametric methods for detecting multiple changepoints, which refer to sudden changes in the properties of the observed time series occurring at unknown moments. Special attention is given to algorithms and statistical measures that determine the homogeneity of the data and methods for detecting change points. The paper considers approaches based on dynamic programming and sliding window methods. The second part of the paper focuses on the numerical modeling of these methods using characteristic examples of experimental data, including both “simple” and “complex” speed profiles of movement. The analysis conducted allowed us to identify the preferred methods, which will be further evaluated on the complete dataset. Preference is given to methods that ensure the closeness of the markup to a reference one, potentially allow the detection of both boundaries of transient processes, as well as are robust relative to internal parameters.

  3. Митин Н.А., Орлов Ю.Н.
    Статистический анализ биграмм специализированных текстов
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254

    Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.

    Mitin N.A., Orlov Y.N.
    Statistical analysis of bigrams of specialized texts
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 243-254

    The method of the stochastic matrix spectrum analysis is used to build an indicator that allows to determine the subject of scientific texts without keywords usage. This matrix is a matrix of conditional probabilities of bigrams, built on the statistics of the alphabet characters in the text without spaces, numbers and punctuation marks. Scientific texts are classified according to the mutual arrangement of invariant subspaces of the matrix of conditional probabilities of pairs of letter combinations. The separation indicator is the value of the cosine of the angle between the right and left eigenvectors corresponding to the maximum and minimum eigenvalues. The computational algorithm uses a special representation of the dichotomy parameter, which is the integral of the square norm of the resolvent of the stochastic matrix of bigrams along the circumference of a given radius in the complex plane. The tendency of the integral to infinity testifies to the approximation of the integration circuit to the eigenvalue of the matrix. The paper presents the typical distribution of the indicator of identification of specialties. For statistical analysis were analyzed dissertations on the main 19 specialties without taking into account the classification within the specialty, 20 texts for the specialty. It was found that the empirical distributions of the cosine of the angle for the mathematical and Humanities specialties do not have a common domain, so they can be formally divided by the value of this indicator without errors. Although the body of texts was not particularly large, nevertheless, in the case of arbitrary selection of dissertations, the identification error at the level of 2 % seems to be a very good result compared to the methods based on semantic analysis. It was also found that it is possible to make a text pattern for each of the specialties in the form of a reference matrix of bigrams, in the vicinity of which in the norm of summable functions it is possible to accurately identify the theme of the written scientific work, without using keywords. The proposed method can be used as a comparative indicator of greater or lesser severity of the scientific text or as an indicator of compliance of the text to a certain scientific level.

  4. Малков С.Ю., Давыдова О.И.
    Модернизация как глобальный процесс: опыт математического моделирования
    Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 859-873

    В статье проведен анализ эмпирических данных по долгосрочной демографической и экономической динамике стран мира за период с начала XIX века по настоящее время. В качестве показателей, характеризующих долгосрочную демографическую и экономическую динамику стран мира, были выбраны данные по численности населения и ВВП ряда стран мира за период 1500–2016 годов. Страны выбирались таким образом, чтобы в их число вошли представители с различным уровнем развития (развитые и развивающиеся страны), а также страны из различных регионов мира (Северная Америка, Южная Америка, Европа, Азия, Африка). Для моделирования и обработки данных использована специально разработанная математическая модель. Представленная модель является автономной системой дифференциальных уравнений, которая описывает процессы социально-экономической модернизации, в том числе процесс перехода от аграрного общества к индустриальному и постиндустриальному. В модель заложена идея о том, что процесс модернизации начинается с возникновения в традиционном обществе инновационного сектора, развивающегося на основе новых технологий. Население из традиционного сектора постепенно перемещается в инновационный сектор. Модернизация завершается, когда большая часть населения переходит в инновационный сектор.

    При работе с моделью использовались статистические методы обработки данных, методы Big Data, включая иерархическую кластеризацию. С помощью разработанного алгоритма на базе метода случайного спуска были идентифицированы параметры модели и проведена ее верификация на основе эмпирических рядов, а также проведено тестирование модели с использованием статистических данных, отражающих изменения, наблюдаемые в развитых и развивающихся странах в период происходящей в течение последних столетий модернизации. Тестирование модели продемонстрировало ее высокое качество — отклонения расчетных кривых от статистических данных, как правило, небольшие и происходят в периоды войн и экономических кризисов. Проведенный анализ статистических данных по долгосрочной демографической и экономической динамике стран мира позволил определить общие закономерности и формализовать их в виде математической модели. Модель будет использоваться с целью прогноза демографической и экономической динамики в различных странах мира.

    Malkov S.Yu., Davydova O.I.
    Modernization as a global process: the experience of mathematical modeling
    Computer Research and Modeling, 2021, v. 13, no. 4, pp. 859-873

    The article analyzes empirical data on the long-term demographic and economic dynamics of the countries of the world for the period from the beginning of the 19th century to the present. Population and GDP of a number of countries of the world for the period 1500–2016 were selected as indicators characterizing the long-term demographic and economic dynamics of the countries of the world. Countries were chosen in such a way that they included representatives with different levels of development (developed and developing countries), as well as countries from different regions of the world (North America, South America, Europe, Asia, Africa). A specially developed mathematical model was used for modeling and data processing. The presented model is an autonomous system of differential equations that describes the processes of socio-economic modernization, including the process of transition from an agrarian society to an industrial and post-industrial one. The model contains the idea that the process of modernization begins with the emergence of an innovative sector in a traditional society, developing on the basis of new technologies. The population is gradually moving from the traditional sector to the innovation sector. Modernization is completed when most of the population moves to the innovation sector.

    Statistical methods of data processing and Big Data methods, including hierarchical clustering were used. Using the developed algorithm based on the random descent method, the parameters of the model were identified and verified on the basis of empirical series, and the model was tested using statistical data reflecting the changes observed in developed and developing countries during the period of modernization taking place over the past centuries. Testing the model has demonstrated its high quality — the deviations of the calculated curves from statistical data are usually small and occur during periods of wars and economic crises. Thus, the analysis of statistical data on the long-term demographic and economic dynamics of the countries of the world made it possible to determine general patterns and formalize them in the form of a mathematical model. The model will be used to forecast demographic and economic dynamics in different countries of the world.

  5. Малков С.Ю., Шпырко О.А.
    Особенности социальных взаимодействий: базовая модель
    Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1673-1693

    В работе рассматриваются базовая модель конкурентных взаимодействий и ее использование для анализа и описания социальных процессов. Особенностью модели является то, что она описывает взаимодействие нескольких конкурирующих акторов, при этом акторы могут варьировать стратегию своих действий, в частности, образовывать коалиции для совместного противодействия общему противнику.

    В результате моделирования выявлены различные режимы конкурентного взаимодействия, проведена их классификация, описаны их особенности. В ходе исследования уделено внимание так называемым негрубым (по А.А. Андронову) случаям реализации конкурентного взаимодействия, которые до сих пор редко рассматривались в научной литературе, но зато достаточно часто встречаются в реальной жизни. Сиспо льзованием базовой математической модели рассмотрены условия реализации различных режимов конкурентных взаимодействий, определены условия перехода от одних режимов к другим, приведены примеры реализации этих режимов в экономике, социальной и политической жизни.

    Показано, что при относительно невысоком уровне конкуренции, носящей неантагонистический характер, конкуренция может приводить к повышению активности взаимодействующих акторов и к общему экономическому росту. Причем при наличии расширяющихся ресурсных возможностей (до тех пор, пока такие возможности сохраняются) данный рост может иметь гиперболический характер. При снижении ресурсных возможностей и усилении конкуренции происходит переход к колебательному режиму, когда более слабые акторы объединяются для совместного противодействия более сильным. При дальнейшем снижении ресурсных возможностей и усилении конкуренции происходит переход к формированию устойчивых иерархических структур. При этом модель показывает, что в определенный момент происходит потеря устойчивости, система становится негрубой (по А.А. Андронову) и чувствительной к флуктуациям изменений параметров. В результате сложившиеся иерархии могут разрушиться и замениться на новые. При дальнейшем повышении интенсивности конкуренции происходит полное подавление актором-лидером своих оппонентов и установление монополизма.

    Приведены примеры из экономической, социальной, политической жизни, иллюстрирующие закономерности, выявленные на основе моделирования с использованием базовой модели конкуренции. Полученные результаты могут быть использованы при анализе, моделировании и прогнозировании социально-экономических и политических процессов.

    Malkov S.Yu., Shpyrko O.A.
    Features of social interactions: the basic model
    Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1673-1693

    The paper considers the basic model of competitive interactions and its use for the analysis and description of social processes. The peculiarity of the model is that it describes the interaction of several competing actors, while actors can vary the strategy of their actions, in particular, form coalitions to jointly counter a common enemy. As a result of modeling, various modes of competitive interaction were identified, their classification was conducted, and their features were described. In the course of the study, the attention is paid to the so-called “rough” (according to A.A. Andronov) cases of the implementation of competitive interaction, which until now have rarely been considered in the scientific literature, but are quite common in real life. Using a basic mathematical model, the conditions for the implementation of various modes of competitive interactions are considered, the conditions for the transition from one mode to another are determined, examples of the implementation of these modes in the economy, social and political life are given. It is shown that with a relatively low level of competition, which is non-antagonistic in nature, competition can lead to an increase in the activity of interacting actors and to overall economic growth. Moreover, in the presence of expanding resource opportunities (as long as such opportunities remain), this growth may have a hyperbolic character. With a decrease in resource capabilities and increased competition, there is a transition to an oscillatory mode, when weaker actors unite to jointly counteract stronger ones. With a further decrease in resource opportunities and increased competition, there is a transition to the formation of stable hierarchical structures. At the same time, the model shows that at a certain moment there is a loss of stability, the system becomes “rough” according to A.A. Andronov and sensitive to fluctuations in parameter changes. As a result, the existing hierarchies may collapse and be replaced by new ones. With a further increase in the intensity of competition, the actor-leader completely suppresses his opponents and establishes monopolism. Examples from economic, social, and political life are given, illustrating the patterns identified on the basis of modeling using the basic model of competition. The obtained results can be used in the analysis, modeling and forecasting of socioeconomic and political processes.

  6. Каменев Г.К., Каменев И.Г.
    Многокритериальный метрический анализ данных при моделировании человеческого капитала
    Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1223-1245

    В статье описываетсявы числимаям одель человека в информационной экономике и демонстрируется многокритериальный оптимизационный подход к метрическому анализу модельных данных. Традиционный подход к идентификации и исследованию модели предполагает идентификацию модели по временным рядам и прогнозирование дальнейшей динамики ряда. Однако этот подход неприменим к моделям, некоторые важнейшие переменные которых не наблюдаютсяя вно, и известны только некоторые типичные границы или особенности генеральной совокупности. Такая ситуация часто встречается в социальных науках, что делает модели сугубо теоретическими. Чтобы избежать этого, для (неявной) идентификации и изучения таких моделей предлагается использовать метод метрического анализа данных (MMDA), основанный на построении и анализе метрических сетей Колмогорова – Шеннона, аппроксимирующих генеральную совокупность данных модельной генерации в многомерном пространстве социальных характеристик. С помощью этого метода идентифицированы коэффициенты модели и изучены особенности ее фазовых траекторий. Представленнаяв статье модель рассматривает человека как субъекта, обрабатывающего информацию, включая его информированность и когнитивные способности. Составлены пожизненные индексы человеческого капитала: креативного индивида (обобщающего когнитивные способности) и продуктивного (обобщает объем освоенной человеком информации). Поставлена задача их многокритериальной (двухкритериальной) оптимизации с учетом ожидаемой продолжительности жизни. Такой подход позволяет выявить и экономически обосновать требования к системе образования и социализации (информационному окружению) человека до достиженияим взрослого возраста. Показано, что в поставленной оптимизационной задаче возникает Парето-граница, причем ее тип зависит от уровня смертности: при высокой продолжительности жизни доминирует одно решение, в то время как для более низкой продолжительности жизни существуют различные типы Парето-границы. В частности, в случае России применим принцип Парето: значительное увеличение креативного человеческого капитала индивида возможно за счет небольшого сниженияпр одуктивного человеческого капитала (обобщение объема освоенной человеком информации). Показано, что рост продолжительности жизни делает оптимальным компетентностный подход, ориентированный на развитие когнитивных способностей, в то время как при низкой продолжительности жизни предпочтительнее знаниевый подход.

    Kamenev G.K., Kamenev I.G.
    Multicriterial metric data analysis in human capital modelling
    Computer Research and Modeling, 2020, v. 12, no. 5, pp. 1223-1245

    The article describes a model of a human in the informational economy and demonstrates the multicriteria optimizational approach to the metric analysis of model-generated data. The traditional approach using the identification and study involves the model’s identification by time series and its further prediction. However, this is not possible when some variables are not explicitly observed and only some typical borders or population features are known, which is often the case in the social sciences, making some models pure theoretical. To avoid this problem, we propose a method of metric data analysis (MMDA) for identification and study of such models, based on the construction and analysis of the Kolmogorov – Shannon metric nets of the general population in a multidimensional space of social characteristics. Using this method, the coefficients of the model are identified and the features of its phase trajectories are studied. In this paper, we are describing human according to his role in information processing, considering his awareness and cognitive abilities. We construct two lifetime indices of human capital: creative individual (generalizing cognitive abilities) and productive (generalizing the amount of information mastered by a person) and formulate the problem of their multi-criteria (two-criteria) optimization taking into account life expectancy. This approach allows us to identify and economically justify the new requirements for the education system and the information environment of human existence. It is shown that the Pareto-frontier exists in the optimization problem, and its type depends on the mortality rates: at high life expectancy there is one dominant solution, while for lower life expectancy there are different types of Paretofrontier. In particular, the Pareto-principle applies to Russia: a significant increase in the creative human capital of an individual (summarizing his cognitive abilities) is possible due to a small decrease in the creative human capital (summarizing awareness). It is shown that the increase in life expectancy makes competence approach (focused on the development of cognitive abilities) being optimal, while for low life expectancy the knowledge approach is preferable.

Страницы: « первая предыдущая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.