Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Является ли тик элементарным прыжком в схеме случайных блужданий на фондовом рынке?
Компьютерные исследования и моделирование, 2010, т. 2, № 2, с. 219-223В работе экспериментально исследовалось среднее время между элементарными прыжками доходности различных акций на российском фондовом рынке. Исходя из скейлинга плотности распределения доходностей на разных временных масштабах, удалось показать, что элементарным прыжком в модели случайных блужданий для доходностей финансовых инструментов является единичное изменение цены (тик), соответствующее совершению одной сделки с инструментом на фондовой бирже.
Is a tick an elementary jump in a random walks scheme on the stock market?
Computer Research and Modeling, 2010, v. 2, no. 2, pp. 219-223Просмотров за год: 3. Цитирований: 1 (РИНЦ).In this paper average times between elementary jumps of stock returns on the Russian market were experimentally studied. Considering the scaling of the probability density function of stock returns on different time intervals it is shown that an elementary jump in the random walks scheme for financial instrument returns is a unit price change (tick) that corresponds to a single deal on the stock market.
-
Анализ стохастических аттракторов квадратичной дискретной популяционной модели с запаздыванием
Компьютерные исследования и моделирование, 2015, т. 7, № 1, с. 145-157В работе рассматривается квадратичная дискретная модель популяционной динамики с запаздыванием под воздействием случайных возмущений. Анализ стохастических аттракторов модели проводится с помощью методов прямого численного моделирования и техники функций стохастической чувствительности. Показана деформация вероятностных распределений случайных состояний вокруг устойчивых равновесий и циклов при изменении параметров. Продемонстрировано явление индуцированных шумом переходов в зоне дискретных циклов.
Ключевые слова: квадратичная дискретная популяционная модель с запаздыванием, функция стохастической чувствительности.
Analysis of stochastic attractors for time-delayed quadratic discrete model of population dynamics
Computer Research and Modeling, 2015, v. 7, no. 1, pp. 145-157Просмотров за год: 3. Цитирований: 1 (РИНЦ).We consider a time-delayed quadratic discrete model of population dynamics under the influence of random perturbations. Analysis of stochastic attractors of the model is performed using the methods of direct numerical simulation and the stochastic sensitivity function technique. A deformation of the probability distribution of random states around the stable equilibria and cycles is studied parametrically. The phenomenon of noise-induced transitions in the zone of discrete cycles is demonstrated.
-
Теоретико-игровые и рефлексивные модели боевых действий
Компьютерные исследования и моделирование, 2022, т. 14, № 1, с. 179-203Моделирование боевых действий является актуальной научной и практической задачей, направленной на предоставление командирам и штабам количественных оснований для принятия решений. Авторами предложена функция победы в боевых и военных действиях, основанная на функции конфликта Г. Таллока и учитывающая масштаб боевых (военных) действий. На достаточном объеме данных военной статистики выполнена оценка параметра масштаба и найдены его значения для тактического, оперативного и стратегического уровней. Исследованы теоретико-игровые модели «наступление-оборона», в которых стороны решают ближайшую и последующую задачи, имея построение войск в один или несколько эшелонов. На первом этапе моделирования находится решение ближайшей задачи — прорыв (удержание) пунктов обороны, на втором — решение последующей задачи — разгром противника в глубине обороны (контратака и восстановление обороны). Для тактического уровня с использованием равновесия Нэша найдены решения ближайшей задачи (распределение сил сторон по пунктам обороны) в антагонистической игре по трем критериям: а) прорыв слабейшего пункта; б) прорыв хотя бы одного пункта; в) средневзвешенная вероятность. Показано, что наступающей стороне целесообразно использовать критерий «прорыв хотя бы одного пункта», при котором, при прочих равных условиях, обеспечивается максимальная вероятность прорыва пунктов обороны. На втором этапе моделирования для частного случая (стороны при прорыве и удержании пунктов обороны руководствуются критерием прорыва слабейшего пункта) решена задача распределения сил и средств между тактическими задачами (эшелонами) по двум критериям: а) максимизация вероятности прорыва пункта обороны и вероятности разгрома противника в глубине обороны; б) максимизация минимального значения из названных вероятностей (критерий гарантированного результата). Важным аспектом боевых действий является информированность. Рассмотрены несколько примеров рефлексивных игр (игр, характеризующихся сложной взаимной информированностью) и осуществления информационного управления. Показано, при каких условиях информационное управление увеличивает выигрыш игрока, и найдено оптимальное информационное управление.
Ключевые слова: математическая модель, бой, наступление, оборона, функция победы, теоретико-игровая модель, рефлексивное и информационное управление.
Game-theoretic and reflexive combat models
Computer Research and Modeling, 2022, v. 14, no. 1, pp. 179-203Modeling combat operations is an urgent scientific and practical task aimed at providing commanders and staffs with quantitative grounds for making decisions. The authors proposed the function of victory in combat and military operations, based on the function of the conflict by G. Tullock and taking into account the scale of combat (military) operations. On a sufficient volume of military statistics, the scale parameter was assessed and its values were found for the tactical, operational and strategic levels. The game-theoretic models «offensive – defense», in which the sides solve the immediate and subsequent tasks, having the formation of troops in one or several echelons, have been investigated. At the first stage of modeling, the solution of the immediate task is found — the breakthrough (holding) of defense points, at the second — the solution of the subsequent task — the defeat of the enemy in the depth of the defense (counterattack and restoration of defense). For the tactical level, using the Nash equilibrium, solutions were found for the closest problem (distribution of the forces of the sides by points of defense) in an antagonistic game according to three criteria: a) breakthrough of the weakest point, b) breakthrough of at least one point, and c) weighted average probability. It is shown that it is advisable for the attacking side to use the criterion of «breaking through at least one point», in which, all other things being equal, the maximum probability of breaking through the points of defense is ensured. At the second stage of modeling for a particular case (the sides are guided by the criterion of breaking through the weakest point when breaking through and holding defense points), the problem of distributing forces and facilities between tactical tasks (echelons) was solved according to two criteria: a) maximizing the probability of breaking through the defense point and the probability of defeating the enemy in depth defense, b) maximizing the minimum value of the named probabilities (the criterion of the guaranteed result). Awareness is an important aspect of combat operations. Several examples of reflexive games (games characterized by complex mutual awareness) and information management are considered. It is shown under what conditions information control increases the player’s payoff, and the optimal information control is found.
-
Моделирование поведения паникующей толпы в многоуровневом разветвленном помещении
Компьютерные исследования и моделирование, 2013, т. 5, № 3, с. 491-508Предлагается модель коллективного поведения толпы, покидающей замкнутое помещение. Модель основывается на методах молекулярной динамики, учитывающей действие как физических, так и социально-психологических сил. Впервые предлагается алгоритм расчета для сложно разветвленных помещений. Для этого у каждого индивида формируется план выхода из помещения, который стохастически трансформируется в процессе эволюции. Алгоритм включает в себя предварительное разбиение пространства на комнаты, выход из которых индивиды выбирают в соответствии со своим распределением вероятности. Модель калибруется с помощью данных, появившихся в результате пожара в ночном клубе «Хромая лошадь» (Пермь, 2009 г.) Алгоритм оформлен как Java-программа конечного пользователя. Предполагается, что программа может помочь тестировать здания на предмет их безопасности для людей.
Modeling of behavior of panicked crowd in multi-floor branched space
Computer Research and Modeling, 2013, v. 5, no. 3, pp. 491-508Просмотров за год: 7. Цитирований: 10 (РИНЦ).The collective behavior of crowd leaving a room is modeled. The model is based on molecular dynamics approach with a mixture of socio-psychological and physical forces. The new algorithm for complicatedly branched space is proposed. It suggests that each individual develops its own plan of escape, which is stochastically transformed during the evolution. The algorithm includes also the separation of original space into rooms with possible exits selected by individuals according to their probability distribution. The model is calibrated on the base of empirical data provided by fire case in the nightclub “Lame Horse” (Perm, 2009). The algorithm is realized as an end-user Java software. It is assumed that this tool could help to test the buildings for their safety for humans.
-
Анализ социально-информационного влияния на примере войн США в Корее, Вьетнаме и Ираке
Компьютерные исследования и моделирование, 2014, т. 6, № 1, с. 167-184В первом разделе работы предложено определение функции представления (восприятия) о показателях, являющихся компонентами субъективной картины мира индивидов. Используя основной психофизический закон в форме С. Стивенса и опираясь на гипотезы социализации, рациональности, индивидуального выбора, комплексности информационных воздействий, динамики представлений и восприятий, доступности, получены формальные зависимости, позволяющие вычислять функции представления (восприятия) для показателей вероятностного (известна функция распределения или субъективная вероятность) и интервального типов. Во втором и третьем разделах выполнена оценка параметров функции представления по данным опросов населения США, связанных с войной в Корее, во Вьетнаме и в Ираке.
Ключевые слова: общественное мнение, представление и восприятие, социально-информационные воздействия, основной психофизический закон, математическая модель.
Analysis of socio-informational influence through the examples of US wars in Korea, Vietnam, and Iraq
Computer Research and Modeling, 2014, v. 6, no. 1, pp. 167-184Просмотров за год: 2. Цитирований: 3 (РИНЦ).In the first section of the paper a definition of presentation (perception) functions — components of individual’s subjective view of the world — are proposed. Using the basic psychophysical law formulated by S. Stevens, and relying on the hypotheses of socialization, rationality, individual choice, complexity of informational influences, dynamics of ideas and perceptions, and accessibility, formal dependence was derived allowing to calculate the function of presentation (perception) for probabilistic indicators (with known distribution function or subjective probability) and of interval type. In the second and third sections parameters of the presentation function according to surveys of the U.S. population related to the war in Korea, Vietnam, and Iraq are estimated.
-
Неэкстенсивная статистика Тсаллиса системы контрактоворганизаций оборонно-промышленного комплекса
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1163-1183В работе проведен анализ системы контрактов, заключаемых организациями оборонно-промышленного комплекса России в процессе выполнения государственного оборонного заказа. Сделан вывод, что для описания данной системы может быть использована методология статистической механики. По аналогии с подходом, применяемым при рассмотрении большого канонического ансамбля Гиббса, изучаемый ансамбль сформирован в виде набора мгновенных «картинок», образованных из действующих в каждый момент времени неразличимых контрактов со своими стоимостями. Показано, что ограничения, накладываемые государством на процесс ценообразования, являются причиной того, что совокупность контрактов может быть отнесена к категории так называемых сложных систем, для описания которых используется неэкстенсивная статистика Тсаллиса. Это приводит к тому, что стоимостные распределения контрактов должны соответствовать деформированному распределению Бозе–Эйнштейна, полученному с использованием энтропии Тсаллиса. Данный вывод справедлив как для всей совокупности контрактов, заключаемых участниками выполнения государственного оборонного заказа, так и контрактов, заключаемых отдельной организацией в качестве исполнителя.
Для анализа степени соответствия эмпирических стоимостных распределений модифицированному распределению Бозе–Эйнштейна в настоящей работе использован метод сравнения соответствующих функций распределения вероятностей. В работе делается вывод о том, что для изучения стоимостных распределений контрактов отдельной организации в качестве анализируемых данных можно использовать сформировавшиеся за календарный год распределения выручки по отдельным заказам, соответствующим заключенным контрактам. Получены эмпирические функции распределения вероятностей ранжированных значений выручки от реализации по отдельным заказам АО «Концерн «ЦНИИ «Электроприбор», одной из ведущих приборостроительных организаций ОПК России, с 2007 по 2021 год. Наблюдается хорошее согласие между эмпирическими и теоретическими функциями распределений вероятностей, рассчитанными с использованием деформированных распределений Бозе–Эйнштейна в пределе «разряженного газа контрактов». Полученные на основе эмпирических данных значения параметров энтропийного индекса для каждого из изученных распределений выручки свидетельствуют о достаточно высокой степени неаддитивности, присущей изучаемой системе. Показано, что для оценки характеристических стоимостей распределений можно использовать величину среднего значения годовой выручки, рассчитанного с помощью нормированного эскортного распределения. Факт наилучшего согласия эмпирических и теоретических функций распределения вероятностей при нулевых значениях химического потенциала позволяет сделать предположение, что изучаемый «газ контрактов» можно сравнить с газом фотонов, в котором число частиц не является постоянным.
Ключевые слова: эконофизика, статистика Тсаллиса, сложные системы, стоимостные распределенияк онтрактов, деформированное распределение Бозе – Эйнштейна.
Nonextensive Tsallis statistics of contract system of prime contractors and subcontractors in defense industry
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1163-1183In this work, we analyze the system of contracts made by Russian defense enterprises in the process of state defense order execution. We conclude that methods of statistical mechanics can be applied to the description of the given system. Following the original grand-canonical ensemble approach, we can create the statistical ensemble under investigation as a set of instant snapshots of indistinguishable contracts having individual values. We show that due to government regulations of contract prices the contract system can be described in terms of nonextensive Tsallis statistics. We have found that probability distributions of contract prices correspond to deformed Bose – Einstein distributions obtained using nonextensive Tsallis entropy. This conclusion is true both in the case of the whole set of contracts and in the case of the contracts made by an individual defense company as a seller.
In order to analyze how deformed Bose – Einstein distributions fit the empirical contract price distributions we compare the corresponding cumulative distribution functions. We conclude that annual distributions of individual sales which correspond to each company’s contract (order) can be used as relevant data for contract price distributions analysis. The empirical cumulative distribution functions for the individual sales ranking of Concern CSRI Elektropribor, one of the leading Russian defense companies, are analyzed for the period 2007–2021. The theoretical cumulative distribution functions, obtained using deformed Bose – Einstein distributions in the case of «rare contract gas» limit, fit well to the empirical cumulative distribution functions. The fitted values for the entropic index show that the degree of nonextensivity of the system under investigations is rather high. It is shown that the characteristic prices of distributions can be estimated by weighing the values of annual individual sales with the escort probabilities. Given that the fitted values of chemical potential are equal to zero, we suggest that «gas of contracts» can be compared to photon gas in which the number of particles is not conserved.
-
Экспериментальное исследование распределения расходов граждан РФ на новые автомобили и их соответствие доходам
Компьютерные исследования и моделирование, 2012, т. 4, № 3, с. 621-629Экспериментально исследуется вопрос о распределении расходов граждан в современной России. Репрезентативной группой приобретаемых товаров были выбраны, как и ранее, новые автомобили. Результаты анализа продаж новых автомобилей за 2007–2009 годы представлены ниже. Основное «тело» плотности вероятности найти определенное количество автомобилей в зависимости от их цены, начиная с некоторой начальной цены вплоть до ~ 60 k$, является экспоненциальным распределением. Обнаруженной особенностью распределения (в отличие от 2003–2005 гг.) было наличие минимальной цены. Для дорогих автомобилей («хвост» распределения) асимптотика есть распределение Парето с показателем степени гиперболы несколько большим, чем измеренный ранее для 2003–2005 гг. Результаты оказались аналогичны прямым измерениям распределения налоговых деклараций по их величине, поданных в США в 2004 г., где также наблюдалось экспоненциальное распределение доходов граждан, начиная с некоторого минимального, с некоторой асимптотикой в виде распределения Парето.
Ключевые слова: распределение продаж новых автомобилей, экспоненциальное распределение, распределение Парето.
Experimental investigation of Russian citizens expenses on new cars and a correspondence to their income
Computer Research and Modeling, 2012, v. 4, no. 3, pp. 621-629Цитирований: 3 (РИНЦ).The question of distribution of citizens expenses in modern Russia is experimentally investigated. New cars were chosen as representative group of the acquired goods as well as earlier. Results of the analysis of sales of new cars for 2007–2009 are presented below. Main “body” of density of probability to find certain number of cars depending on their price, since some initial price up to ~ k$60, is an exponential distribution. The found feature of distribution (unlike 2003–2005) was an existence of minimum price. For expensive cars (distribution “tail”), the asymptotic form is the Pareto distribution with a hyperbole exponent a little greater, than measured earlier for 2003–2005. The results turned up to be similar to direct measurements of distribution of tax declarations on their size, submitted to the USA in 2004 where exponential distribution of the income of citizens, since some minimum, with some asymptotic in the form of Pareto's distribution also was observed.
-
Математические модели боевых и военных действий
Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 217-242Моделирование боевых и военных действий является важнейшей научной и практической задачей, направленной на предоставление командованию количественных оснований для принятия решений. Первые модели боя были разработаны в годы первой мировой войны (М. Осипов, F. Lanchester), а в настоящее время они получили широкое распространение в связи с массовым внедрением средств автоматизации. Вместе с тем в моделях боя и войны не в полной мере учитывается моральный потенциал участников конфликта, что побуждает и мотивирует дальнейшее развитие моделей боя и войны. Рассмотрена вероятностная модель боя, в которой параметр боевого превосходства определен через параметр морального (отношение процентов выдерживаемых потерь сторон) и параметр технологического превосходства. Для оценки последнего учитываются: опыт командования (способность организовать согласованные действия), разведывательные, огневые и маневренные возможности сторон и возможности оперативного (боевого) обеспечения. Разработана теоретико-игровая модель «наступление–оборона», учитывающая действия первых и вторых эшелонов (резервов) сторон. Целевой функцией наступающих в модели является произведение вероятности прорыва первым эшелоном одного из пунктов обороны на вероятность отражения вторым эшелоном контратаки резерва обороняющихся. Решена частная задача управления прорывом пунктов обороны и найдено оптимальное распределение боевых единиц между эшелонами. Доля войск, выделяемая сторонами во второй эшелон (резерв), растет с увеличением значения агрегированного параметра боевого превосходства наступающих и уменьшается с увеличением значения параметра боевого превосходства при отражении контратаки. При планировании боя (сражения, операции) и распределении своих войск между эшелонами важно знать не точное количество войск противника, а свои и его возможности, а также степень подготовленности обороны, что не противоречит опыту ведения боевых действий. В зависимости от условий обстановки целью наступления может являться разгром противника, скорейший захват важного района в глубине обороны противника, минимизация своих потерь и т. д. Для масштабирования модели «наступление–оборона» по целям найдены зависимости потерь и темпа наступления от начального соотношения боевых потенциалов сторон. Выполнен учет влияния общественных издержек на ход и исход войн. Дано теоретическое объяснение проигрыша в военной кампании со слабым в технологическом отношении противником и при неясной для общества цели войны. Для учета влияния психологических операций и информационных войн на моральный потенциал индивидов использована модель социально-информационного влияния.
Ключевые слова: математическая модель, бой, наступление, оборона, война, моральный фактор, уравнения Осипова–Ланчестера, вероятностная модель, теоретико-игровая модель.
Mathematical models of combat and military operations
Computer Research and Modeling, 2020, v. 12, no. 1, pp. 217-242Simulation of combat and military operations is the most important scientific and practical task aimed at providing the command of quantitative bases for decision-making. The first models of combat were developed during the First World War (M. Osipov, F. Lanchester), and now they are widely used in connection with the massive introduction of automation tools. At the same time, the models of combat and war do not fully take into account the moral potentials of the parties to the conflict, which motivates and motivates the further development of models of battle and war. A probabilistic model of combat is considered, in which the parameter of combat superiority is determined through the parameter of moral (the ratio of the percentages of the losses sustained by the parties) and the parameter of technological superiority. To assess the latter, the following is taken into account: command experience (ability to organize coordinated actions), reconnaissance, fire and maneuverability capabilities of the parties and operational (combat) support capabilities. A game-based offensive-defense model has been developed, taking into account the actions of the first and second echelons (reserves) of the parties. The target function of the attackers in the model is the product of the probability of a breakthrough by the first echelon of one of the defense points by the probability of the second echelon of the counterattack repelling the reserve of the defenders. Solved the private task of managing the breakthrough of defense points and found the optimal distribution of combat units between the trains. The share of troops allocated by the parties to the second echelon (reserve) increases with an increase in the value of the aggregate combat superiority parameter of those advancing and decreases with an increase in the value of the combat superiority parameter when repelling a counterattack. When planning a battle (battles, operations) and the distribution of its troops between echelons, it is important to know not the exact number of enemy troops, but their capabilities and capabilities, as well as the degree of preparedness of the defense, which does not contradict the experience of warfare. Depending on the conditions of the situation, the goal of an offensive may be to defeat the enemy, quickly capture an important area in the depth of the enemy’s defense, minimize their losses, etc. For scaling the offensive-defense model for targets, the dependencies of the losses and the onset rate on the initial ratio of the combat potentials of the parties were found. The influence of social costs on the course and outcome of wars is taken into account. A theoretical explanation is given of a loss in a military company with a technologically weak adversary and with a goal of war that is unclear to society. To account for the influence of psychological operations and information wars on the moral potential of individuals, a model of social and information influence was used.
-
Статистический анализ биграмм специализированных текстов
Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.
Ключевые слова: стохастическая матрица, спектральный портрет, статистический индикатор, научный текст.
Statistical analysis of bigrams of specialized texts
Computer Research and Modeling, 2020, v. 12, no. 1, pp. 243-254The method of the stochastic matrix spectrum analysis is used to build an indicator that allows to determine the subject of scientific texts without keywords usage. This matrix is a matrix of conditional probabilities of bigrams, built on the statistics of the alphabet characters in the text without spaces, numbers and punctuation marks. Scientific texts are classified according to the mutual arrangement of invariant subspaces of the matrix of conditional probabilities of pairs of letter combinations. The separation indicator is the value of the cosine of the angle between the right and left eigenvectors corresponding to the maximum and minimum eigenvalues. The computational algorithm uses a special representation of the dichotomy parameter, which is the integral of the square norm of the resolvent of the stochastic matrix of bigrams along the circumference of a given radius in the complex plane. The tendency of the integral to infinity testifies to the approximation of the integration circuit to the eigenvalue of the matrix. The paper presents the typical distribution of the indicator of identification of specialties. For statistical analysis were analyzed dissertations on the main 19 specialties without taking into account the classification within the specialty, 20 texts for the specialty. It was found that the empirical distributions of the cosine of the angle for the mathematical and Humanities specialties do not have a common domain, so they can be formally divided by the value of this indicator without errors. Although the body of texts was not particularly large, nevertheless, in the case of arbitrary selection of dissertations, the identification error at the level of 2 % seems to be a very good result compared to the methods based on semantic analysis. It was also found that it is possible to make a text pattern for each of the specialties in the form of a reference matrix of bigrams, in the vicinity of which in the norm of summable functions it is possible to accurately identify the theme of the written scientific work, without using keywords. The proposed method can be used as a comparative indicator of greater or lesser severity of the scientific text or as an indicator of compliance of the text to a certain scientific level.
-
Определение автора текста методом сегментации
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1199-1210В работе описывается метод распознавания авторов литературных текстов по близости фрагментов, на которые разделен отдельный текст, к эталону автора. Эталоном является эмпирическое распределение частот буквосочетаний, построенное по обучающей выборке, куда вошли экспертно отобранные достоверно известные произведения данного автора. Совокупность эталонов разных авторов образует библиотеку, внутри которой и решается задача об идентификации автора неизвестного текста. Близость между текстами понимается в смысле нормы в L1 для вектора частот буквосочетаний, который строится для каждого фрагмента и для текста в целом. Автором неизвестного текста назначается тот, эталон которого чаще всего выбирается в качестве ближайшего для набора фрагментов, на которые разделен текст. Длина фрагмента оптимизируется исходя из принципа максимального различия расстояний от фрагментов до эталонов в задаче распознавания «свой–чужой». Тестирование метода проведено на корпусе отечественных и зарубежных (в переводе) авторов. Были собраны 1783 текста 100 авторов суммарным объемом примерно 700 млн знаков. Чтобы исключить тенденциозность отбора авторов, рассматривались авторы, фамилии которых начинались на одну и ту же букву (в данном случае Л). Ошибка идентификации по биграммам составила 12%. Наряду с достаточно высокой точностью данный метод обладает еще одним важным свойством: он позволяет оценить вероятность того, что эталон автора рассматриваемого текста в библиотеке отсутствует. Эта вероятность может быть оценена по результатам статистики ближайших эталонов для малых фрагментов текста. В работе исследуются также статистические цифровые портреты писателей: это совместные эмпирические распределения вероятности того, что некоторая доля текста идентифицируется на заданном уровне доверия. Практическая важность этих статистик в том, что носители соответствующих распределений практически не пересекаются для своих и чужих эталонов, что позволяет распознать эталонное распределение буквосочетаний на высоком уровне доверия.
Ключевые слова: эмпирическое распределение частот, биграммы, идентификация автора, литературный текст, ближайший эталон.
Identification of the author of the text by segmentation method
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1199-1210The paper describes a method for recognizing authors of literary texts by the proximity of fragments into which a separate text is divided to the standard of the author. The standard is the empirical frequency distribution of letter combinations, built on a training sample, which included expertly selected reliably known works of this author. A set of standards of different authors forms a library, within which the problem of identifying the author of an unknown text is solved. The proximity between texts is understood in the sense of the norm in L1 for the frequency vector of letter combinations, which is constructed for each fragment and for the text as a whole. The author of an unknown text is assigned the one whose standard is most often chosen as the closest for the set of fragments into which the text is divided. The length of the fragment is optimized based on the principle of the maximum difference in distances from fragments to standards in the problem of recognition of «friend–foe». The method was tested on the corpus of domestic and foreign (translated) authors. 1783 texts of 100 authors with a total volume of about 700 million characters were collected. In order to exclude the bias in the selection of authors, authors whose surnames began with the same letter were considered. In particular, for the letter L, the identification error was 12%. Along with a fairly high accuracy, this method has another important property: it allows you to estimate the probability that the standard of the author of the text in question is missing in the library. This probability can be estimated based on the results of the statistics of the nearest standards for small fragments of text. The paper also examines statistical digital portraits of writers: these are joint empirical distributions of the probability that a certain proportion of the text is identified at a given level of trust. The practical importance of these statistics is that the carriers of the corresponding distributions practically do not overlap for their own and other people’s standards, which makes it possible to recognize the reference distribution of letter combinations at a high level of confidence.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"