Текущий выпуск Номер 2, 2024 Том 16

Все выпуски

Результаты поиска по 'probability distribution':
Найдено статей: 30
  1. Корепанов В.О., Чхартишвили А.Г., Шумов В.В.
    Теоретико-игровые и рефлексивные модели боевых действий
    Компьютерные исследования и моделирование, 2022, т. 14, № 1, с. 179-203

    Моделирование боевых действий является актуальной научной и практической задачей, направленной на предоставление командирам и штабам количественных оснований для принятия решений. Авторами предложена функция победы в боевых и военных действиях, основанная на функции конфликта Г. Таллока и учитывающая масштаб боевых (военных) действий. На достаточном объеме данных военной статистики выполнена оценка параметра масштаба и найдены его значения для тактического, оперативного и стратегического уровней. Исследованы теоретико-игровые модели «наступление-оборона», в которых стороны решают ближайшую и последующую задачи, имея построение войск в один или несколько эшелонов. На первом этапе моделирования находится решение ближайшей задачи — прорыв (удержание) пунктов обороны, на втором — решение последующей задачи — разгром противника в глубине обороны (контратака и восстановление обороны). Для тактического уровня с использованием равновесия Нэша найдены решения ближайшей задачи (распределение сил сторон по пунктам обороны) в антагонистической игре по трем критериям: а) прорыв слабейшего пункта; б) прорыв хотя бы одного пункта; в) средневзвешенная вероятность. Показано, что наступающей стороне целесообразно использовать критерий «прорыв хотя бы одного пункта», при котором, при прочих равных условиях, обеспечивается максимальная вероятность прорыва пунктов обороны. На втором этапе моделирования для частного случая (стороны при прорыве и удержании пунктов обороны руководствуются критерием прорыва слабейшего пункта) решена задача распределения сил и средств между тактическими задачами (эшелонами) по двум критериям: а) максимизация вероятности прорыва пункта обороны и вероятности разгрома противника в глубине обороны; б) максимизация минимального значения из названных вероятностей (критерий гарантированного результата). Важным аспектом боевых действий является информированность. Рассмотрены несколько примеров рефлексивных игр (игр, характеризующихся сложной взаимной информированностью) и осуществления информационного управления. Показано, при каких условиях информационное управление увеличивает выигрыш игрока, и найдено оптимальное информационное управление.

    Korepanov V.O., Chkhartishvili A.G., Shumov V.V.
    Game-theoretic and reflexive combat models
    Computer Research and Modeling, 2022, v. 14, no. 1, pp. 179-203

    Modeling combat operations is an urgent scientific and practical task aimed at providing commanders and staffs with quantitative grounds for making decisions. The authors proposed the function of victory in combat and military operations, based on the function of the conflict by G. Tullock and taking into account the scale of combat (military) operations. On a sufficient volume of military statistics, the scale parameter was assessed and its values were found for the tactical, operational and strategic levels. The game-theoretic models «offensive – defense», in which the sides solve the immediate and subsequent tasks, having the formation of troops in one or several echelons, have been investigated. At the first stage of modeling, the solution of the immediate task is found — the breakthrough (holding) of defense points, at the second — the solution of the subsequent task — the defeat of the enemy in the depth of the defense (counterattack and restoration of defense). For the tactical level, using the Nash equilibrium, solutions were found for the closest problem (distribution of the forces of the sides by points of defense) in an antagonistic game according to three criteria: a) breakthrough of the weakest point, b) breakthrough of at least one point, and c) weighted average probability. It is shown that it is advisable for the attacking side to use the criterion of «breaking through at least one point», in which, all other things being equal, the maximum probability of breaking through the points of defense is ensured. At the second stage of modeling for a particular case (the sides are guided by the criterion of breaking through the weakest point when breaking through and holding defense points), the problem of distributing forces and facilities between tactical tasks (echelons) was solved according to two criteria: a) maximizing the probability of breaking through the defense point and the probability of defeating the enemy in depth defense, b) maximizing the minimum value of the named probabilities (the criterion of the guaranteed result). Awareness is an important aspect of combat operations. Several examples of reflexive games (games characterized by complex mutual awareness) and information management are considered. It is shown under what conditions information control increases the player’s payoff, and the optimal information control is found.

  2. Аптуков А.М., Брацун Д.А., Люшнин А.В.
    Моделирование поведения паникующей толпы в многоуровневом разветвленном помещении
    Компьютерные исследования и моделирование, 2013, т. 5, № 3, с. 491-508

    Предлагается модель коллективного поведения толпы, покидающей замкнутое помещение. Модель основывается на методах молекулярной динамики, учитывающей действие как физических, так и социально-психологических сил. Впервые предлагается алгоритм расчета для сложно разветвленных помещений. Для этого у каждого индивида формируется план выхода из помещения, который стохастически трансформируется в процессе эволюции. Алгоритм включает в себя предварительное разбиение пространства на комнаты, выход из которых индивиды выбирают в соответствии со своим распределением вероятности. Модель калибруется с помощью данных, появившихся в результате пожара в ночном клубе «Хромая лошадь» (Пермь, 2009 г.) Алгоритм оформлен как Java-программа конечного пользователя. Предполагается, что программа может помочь тестировать здания на предмет их безопасности для людей.

    Aptukov A.M., Bratsun D.A., Lyushnin A.V.
    Modeling of behavior of panicked crowd in multi-floor branched space
    Computer Research and Modeling, 2013, v. 5, no. 3, pp. 491-508

    The collective behavior of crowd leaving a room is modeled. The model is based on molecular dynamics approach with a mixture of socio-psychological and physical forces. The new algorithm for complicatedly branched space is proposed. It suggests that each individual develops its own plan of escape, which is stochastically transformed during the evolution. The algorithm includes also the separation of original space into rooms with possible exits selected by individuals according to their probability distribution. The model is calibrated on the base of empirical data provided by fire case in the nightclub “Lame Horse” (Perm, 2009). The algorithm is realized as an end-user Java software. It is assumed that this tool could help to test the buildings for their safety for humans.

    Просмотров за год: 7. Цитирований: 10 (РИНЦ).
  3. Шумов В.В.
    Анализ социально-информационного влияния на примере войн США в Корее, Вьетнаме и Ираке
    Компьютерные исследования и моделирование, 2014, т. 6, № 1, с. 167-184

    В первом разделе работы предложено определение функции представления (восприятия) о показателях, являющихся компонентами субъективной картины мира индивидов. Используя основной психофизический закон в форме С. Стивенса и опираясь на гипотезы социализации, рациональности, индивидуального выбора, комплексности информационных воздействий, динамики представлений и восприятий, доступности, получены формальные зависимости, позволяющие вычислять функции представления (восприятия) для показателей вероятностного (известна функция распределения или субъективная вероятность) и интервального типов. Во втором и третьем разделах выполнена оценка параметров функции представления по данным опросов населения США, связанных с войной в Корее, во Вьетнаме и в Ираке.

    Shumov V.V.
    Analysis of socio-informational influence through the examples of US wars in Korea, Vietnam, and Iraq
    Computer Research and Modeling, 2014, v. 6, no. 1, pp. 167-184

    In the first section of the paper a definition of presentation (perception) functions — components of individual’s subjective view of the world — are proposed. Using the basic psychophysical law formulated by S. Stevens, and relying on the hypotheses of socialization, rationality, individual choice, complexity of informational influences, dynamics of ideas and perceptions, and accessibility, formal dependence was derived allowing to calculate the function of presentation (perception) for probabilistic indicators (with known distribution function or subjective probability) and of interval type. In the second and third sections parameters of the presentation function according to surveys of the U.S. population related to the war in Korea, Vietnam, and Iraq are estimated.

    Просмотров за год: 2. Цитирований: 3 (РИНЦ).
  4. Попов А.Б.
    Неэкстенсивная статистика Тсаллиса системы контрактоворганизаций оборонно-промышленного комплекса
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1163-1183

    В работе проведен анализ системы контрактов, заключаемых организациями оборонно-промышленного комплекса России в процессе выполнения государственного оборонного заказа. Сделан вывод, что для описания данной системы может быть использована методология статистической механики. По аналогии с подходом, применяемым при рассмотрении большого канонического ансамбля Гиббса, изучаемый ансамбль сформирован в виде набора мгновенных «картинок», образованных из действующих в каждый момент времени неразличимых контрактов со своими стоимостями. Показано, что ограничения, накладываемые государством на процесс ценообразования, являются причиной того, что совокупность контрактов может быть отнесена к категории так называемых сложных систем, для описания которых используется неэкстенсивная статистика Тсаллиса. Это приводит к тому, что стоимостные распределения контрактов должны соответствовать деформированному распределению Бозе–Эйнштейна, полученному с использованием энтропии Тсаллиса. Данный вывод справедлив как для всей совокупности контрактов, заключаемых участниками выполнения государственного оборонного заказа, так и контрактов, заключаемых отдельной организацией в качестве исполнителя.

    Для анализа степени соответствия эмпирических стоимостных распределений модифицированному распределению Бозе–Эйнштейна в настоящей работе использован метод сравнения соответствующих функций распределения вероятностей. В работе делается вывод о том, что для изучения стоимостных распределений контрактов отдельной организации в качестве анализируемых данных можно использовать сформировавшиеся за календарный год распределения выручки по отдельным заказам, соответствующим заключенным контрактам. Получены эмпирические функции распределения вероятностей ранжированных значений выручки от реализации по отдельным заказам АО «Концерн «ЦНИИ «Электроприбор», одной из ведущих приборостроительных организаций ОПК России, с 2007 по 2021 год. Наблюдается хорошее согласие между эмпирическими и теоретическими функциями распределений вероятностей, рассчитанными с использованием деформированных распределений Бозе–Эйнштейна в пределе «разряженного газа контрактов». Полученные на основе эмпирических данных значения параметров энтропийного индекса для каждого из изученных распределений выручки свидетельствуют о достаточно высокой степени неаддитивности, присущей изучаемой системе. Показано, что для оценки характеристических стоимостей распределений можно использовать величину среднего значения годовой выручки, рассчитанного с помощью нормированного эскортного распределения. Факт наилучшего согласия эмпирических и теоретических функций распределения вероятностей при нулевых значениях химического потенциала позволяет сделать предположение, что изучаемый «газ контрактов» можно сравнить с газом фотонов, в котором число частиц не является постоянным.

    Popov A.B.
    Nonextensive Tsallis statistics of contract system of prime contractors and subcontractors in defense industry
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1163-1183

    In this work, we analyze the system of contracts made by Russian defense enterprises in the process of state defense order execution. We conclude that methods of statistical mechanics can be applied to the description of the given system. Following the original grand-canonical ensemble approach, we can create the statistical ensemble under investigation as a set of instant snapshots of indistinguishable contracts having individual values. We show that due to government regulations of contract prices the contract system can be described in terms of nonextensive Tsallis statistics. We have found that probability distributions of contract prices correspond to deformed Bose – Einstein distributions obtained using nonextensive Tsallis entropy. This conclusion is true both in the case of the whole set of contracts and in the case of the contracts made by an individual defense company as a seller.

    In order to analyze how deformed Bose – Einstein distributions fit the empirical contract price distributions we compare the corresponding cumulative distribution functions. We conclude that annual distributions of individual sales which correspond to each company’s contract (order) can be used as relevant data for contract price distributions analysis. The empirical cumulative distribution functions for the individual sales ranking of Concern CSRI Elektropribor, one of the leading Russian defense companies, are analyzed for the period 2007–2021. The theoretical cumulative distribution functions, obtained using deformed Bose – Einstein distributions in the case of «rare contract gas» limit, fit well to the empirical cumulative distribution functions. The fitted values for the entropic index show that the degree of nonextensivity of the system under investigations is rather high. It is shown that the characteristic prices of distributions can be estimated by weighing the values of annual individual sales with the escort probabilities. Given that the fitted values of chemical potential are equal to zero, we suggest that «gas of contracts» can be compared to photon gas in which the number of particles is not conserved.

  5. Гаранина О.С., Романовский М.Ю.
    Экспериментальное исследование распределения расходов граждан РФ на новые автомобили и их соответствие доходам
    Компьютерные исследования и моделирование, 2012, т. 4, № 3, с. 621-629

    Экспериментально исследуется вопрос о распределении расходов граждан в современной России. Репрезентативной группой приобретаемых товаров были выбраны, как и ранее, новые автомобили. Результаты анализа продаж новых автомобилей за 2007–2009 годы представлены ниже. Основное «тело» плотности вероятности найти определенное количество автомобилей в зависимости от их цены, начиная с некоторой начальной цены вплоть до ~ 60 k$, является экспоненциальным распределением. Обнаруженной особенностью распределения (в отличие от 2003–2005 гг.) было наличие минимальной цены. Для дорогих автомобилей («хвост» распределения) асимптотика есть распределение Парето с показателем степени гиперболы несколько большим, чем измеренный ранее для 2003–2005 гг. Результаты оказались аналогичны прямым измерениям распределения налоговых деклараций по их величине, поданных в США в 2004 г., где также наблюдалось экспоненциальное распределение доходов граждан, начиная с некоторого минимального, с некоторой асимптотикой в виде распределения Парето.

    Garanina O.S., Romanovsky M.Y.
    Experimental investigation of Russian citizens expenses on new cars and a correspondence to their income
    Computer Research and Modeling, 2012, v. 4, no. 3, pp. 621-629

    The question of distribution of citizens expenses in modern Russia is experimentally investigated. New cars were chosen as representative group of the acquired goods as well as earlier. Results of the analysis of sales of new cars for 2007–2009 are presented below. Main “body” of density of probability to find certain number of cars depending on their price, since some initial price up to ~ k$60, is an exponential distribution. The found feature of distribution (unlike 2003–2005) was an existence of minimum price. For expensive cars (distribution “tail”), the asymptotic form is the Pareto distribution with a hyperbole exponent a little greater, than measured earlier for 2003–2005. The results turned up to be similar to direct measurements of distribution of tax declarations on their size, submitted to the USA in 2004 where exponential distribution of the income of citizens, since some minimum, with some asymptotic in the form of Pareto's distribution also was observed.

    Цитирований: 3 (РИНЦ).
  6. Шумов В.В., Корепанов В.О.
    Математические модели боевых и военных действий
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 217-242

    Моделирование боевых и военных действий является важнейшей научной и практической задачей, направленной на предоставление командованию количественных оснований для принятия решений. Первые модели боя были разработаны в годы первой мировой войны (М. Осипов, F. Lanchester), а в настоящее время они получили широкое распространение в связи с массовым внедрением средств автоматизации. Вместе с тем в моделях боя и войны не в полной мере учитывается моральный потенциал участников конфликта, что побуждает и мотивирует дальнейшее развитие моделей боя и войны. Рассмотрена вероятностная модель боя, в которой параметр боевого превосходства определен через параметр морального (отношение процентов выдерживаемых потерь сторон) и параметр технологического превосходства. Для оценки последнего учитываются: опыт командования (способность организовать согласованные действия), разведывательные, огневые и маневренные возможности сторон и возможности оперативного (боевого) обеспечения. Разработана теоретико-игровая модель «наступление–оборона», учитывающая действия первых и вторых эшелонов (резервов) сторон. Целевой функцией наступающих в модели является произведение вероятности прорыва первым эшелоном одного из пунктов обороны на вероятность отражения вторым эшелоном контратаки резерва обороняющихся. Решена частная задача управления прорывом пунктов обороны и найдено оптимальное распределение боевых единиц между эшелонами. Доля войск, выделяемая сторонами во второй эшелон (резерв), растет с увеличением значения агрегированного параметра боевого превосходства наступающих и уменьшается с увеличением значения параметра боевого превосходства при отражении контратаки. При планировании боя (сражения, операции) и распределении своих войск между эшелонами важно знать не точное количество войск противника, а свои и его возможности, а также степень подготовленности обороны, что не противоречит опыту ведения боевых действий. В зависимости от условий обстановки целью наступления может являться разгром противника, скорейший захват важного района в глубине обороны противника, минимизация своих потерь и т. д. Для масштабирования модели «наступление–оборона» по целям найдены зависимости потерь и темпа наступления от начального соотношения боевых потенциалов сторон. Выполнен учет влияния общественных издержек на ход и исход войн. Дано теоретическое объяснение проигрыша в военной кампании со слабым в технологическом отношении противником и при неясной для общества цели войны. Для учета влияния психологических операций и информационных войн на моральный потенциал индивидов использована модель социально-информационного влияния.

    Shumov V.V., Korepanov V.O.
    Mathematical models of combat and military operations
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 217-242

    Simulation of combat and military operations is the most important scientific and practical task aimed at providing the command of quantitative bases for decision-making. The first models of combat were developed during the First World War (M. Osipov, F. Lanchester), and now they are widely used in connection with the massive introduction of automation tools. At the same time, the models of combat and war do not fully take into account the moral potentials of the parties to the conflict, which motivates and motivates the further development of models of battle and war. A probabilistic model of combat is considered, in which the parameter of combat superiority is determined through the parameter of moral (the ratio of the percentages of the losses sustained by the parties) and the parameter of technological superiority. To assess the latter, the following is taken into account: command experience (ability to organize coordinated actions), reconnaissance, fire and maneuverability capabilities of the parties and operational (combat) support capabilities. A game-based offensive-defense model has been developed, taking into account the actions of the first and second echelons (reserves) of the parties. The target function of the attackers in the model is the product of the probability of a breakthrough by the first echelon of one of the defense points by the probability of the second echelon of the counterattack repelling the reserve of the defenders. Solved the private task of managing the breakthrough of defense points and found the optimal distribution of combat units between the trains. The share of troops allocated by the parties to the second echelon (reserve) increases with an increase in the value of the aggregate combat superiority parameter of those advancing and decreases with an increase in the value of the combat superiority parameter when repelling a counterattack. When planning a battle (battles, operations) and the distribution of its troops between echelons, it is important to know not the exact number of enemy troops, but their capabilities and capabilities, as well as the degree of preparedness of the defense, which does not contradict the experience of warfare. Depending on the conditions of the situation, the goal of an offensive may be to defeat the enemy, quickly capture an important area in the depth of the enemy’s defense, minimize their losses, etc. For scaling the offensive-defense model for targets, the dependencies of the losses and the onset rate on the initial ratio of the combat potentials of the parties were found. The influence of social costs on the course and outcome of wars is taken into account. A theoretical explanation is given of a loss in a military company with a technologically weak adversary and with a goal of war that is unclear to society. To account for the influence of psychological operations and information wars on the moral potential of individuals, a model of social and information influence was used.

  7. Митин Н.А., Орлов Ю.Н.
    Статистический анализ биграмм специализированных текстов
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254

    Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.

    Mitin N.A., Orlov Y.N.
    Statistical analysis of bigrams of specialized texts
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 243-254

    The method of the stochastic matrix spectrum analysis is used to build an indicator that allows to determine the subject of scientific texts without keywords usage. This matrix is a matrix of conditional probabilities of bigrams, built on the statistics of the alphabet characters in the text without spaces, numbers and punctuation marks. Scientific texts are classified according to the mutual arrangement of invariant subspaces of the matrix of conditional probabilities of pairs of letter combinations. The separation indicator is the value of the cosine of the angle between the right and left eigenvectors corresponding to the maximum and minimum eigenvalues. The computational algorithm uses a special representation of the dichotomy parameter, which is the integral of the square norm of the resolvent of the stochastic matrix of bigrams along the circumference of a given radius in the complex plane. The tendency of the integral to infinity testifies to the approximation of the integration circuit to the eigenvalue of the matrix. The paper presents the typical distribution of the indicator of identification of specialties. For statistical analysis were analyzed dissertations on the main 19 specialties without taking into account the classification within the specialty, 20 texts for the specialty. It was found that the empirical distributions of the cosine of the angle for the mathematical and Humanities specialties do not have a common domain, so they can be formally divided by the value of this indicator without errors. Although the body of texts was not particularly large, nevertheless, in the case of arbitrary selection of dissertations, the identification error at the level of 2 % seems to be a very good result compared to the methods based on semantic analysis. It was also found that it is possible to make a text pattern for each of the specialties in the form of a reference matrix of bigrams, in the vicinity of which in the norm of summable functions it is possible to accurately identify the theme of the written scientific work, without using keywords. The proposed method can be used as a comparative indicator of greater or lesser severity of the scientific text or as an indicator of compliance of the text to a certain scientific level.

  8. Воронина М.Ю., Орлов Ю.Н.
    Определение автора текста методом сегментации
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1199-1210

    В работе описывается метод распознавания авторов литературных текстов по близости фрагментов, на которые разделен отдельный текст, к эталону автора. Эталоном является эмпирическое распределение частот буквосочетаний, построенное по обучающей выборке, куда вошли экспертно отобранные достоверно известные произведения данного автора. Совокупность эталонов разных авторов образует библиотеку, внутри которой и решается задача об идентификации автора неизвестного текста. Близость между текстами понимается в смысле нормы в L1 для вектора частот буквосочетаний, который строится для каждого фрагмента и для текста в целом. Автором неизвестного текста назначается тот, эталон которого чаще всего выбирается в качестве ближайшего для набора фрагментов, на которые разделен текст. Длина фрагмента оптимизируется исходя из принципа максимального различия расстояний от фрагментов до эталонов в задаче распознавания «свой–чужой». Тестирование метода проведено на корпусе отечественных и зарубежных (в переводе) авторов. Были собраны 1783 текста 100 авторов суммарным объемом примерно 700 млн знаков. Чтобы исключить тенденциозность отбора авторов, рассматривались авторы, фамилии которых начинались на одну и ту же букву (в данном случае Л). Ошибка идентификации по биграммам составила 12%. Наряду с достаточно высокой точностью данный метод обладает еще одним важным свойством: он позволяет оценить вероятность того, что эталон автора рассматриваемого текста в библиотеке отсутствует. Эта вероятность может быть оценена по результатам статистики ближайших эталонов для малых фрагментов текста. В работе исследуются также статистические цифровые портреты писателей: это совместные эмпирические распределения вероятности того, что некоторая доля текста идентифицируется на заданном уровне доверия. Практическая важность этих статистик в том, что носители соответствующих распределений практически не пересекаются для своих и чужих эталонов, что позволяет распознать эталонное распределение буквосочетаний на высоком уровне доверия.

    Voronina M.Y., Orlov Y.N.
    Identification of the author of the text by segmentation method
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1199-1210

    The paper describes a method for recognizing authors of literary texts by the proximity of fragments into which a separate text is divided to the standard of the author. The standard is the empirical frequency distribution of letter combinations, built on a training sample, which included expertly selected reliably known works of this author. A set of standards of different authors forms a library, within which the problem of identifying the author of an unknown text is solved. The proximity between texts is understood in the sense of the norm in L1 for the frequency vector of letter combinations, which is constructed for each fragment and for the text as a whole. The author of an unknown text is assigned the one whose standard is most often chosen as the closest for the set of fragments into which the text is divided. The length of the fragment is optimized based on the principle of the maximum difference in distances from fragments to standards in the problem of recognition of «friend–foe». The method was tested on the corpus of domestic and foreign (translated) authors. 1783 texts of 100 authors with a total volume of about 700 million characters were collected. In order to exclude the bias in the selection of authors, authors whose surnames began with the same letter were considered. In particular, for the letter L, the identification error was 12%. Along with a fairly high accuracy, this method has another important property: it allows you to estimate the probability that the standard of the author of the text in question is missing in the library. This probability can be estimated based on the results of the statistics of the nearest standards for small fragments of text. The paper also examines statistical digital portraits of writers: these are joint empirical distributions of the probability that a certain proportion of the text is identified at a given level of trust. The practical importance of these statistics is that the carriers of the corresponding distributions practically do not overlap for their own and other people’s standards, which makes it possible to recognize the reference distribution of letter combinations at a high level of confidence.

  9. В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и разли- чия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p < 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.

    Kirilyuk I.L., Sen'ko O.V.
    Assessing the validity of clustering of panel data by Monte Carlo methods (using as example the data of the Russian regional economy)
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1501-1513

    The paper considers a method for studying panel data based on the use of agglomerative hierarchical clustering — grouping objects based on the similarities and differences in their features into a hierarchy of clusters nested into each other. We used 2 alternative methods for calculating Euclidean distances between objects — the distance between the values averaged over observation interval, and the distance using data for all considered years. Three alternative methods for calculating the distances between clusters were compared. In the first case, the distance between the nearest elements from two clusters is considered to be distance between these clusters, in the second — the average over pairs of elements, in the third — the distance between the most distant elements. The efficiency of using two clustering quality indices, the Dunn and Silhouette index, was studied to select the optimal number of clusters and evaluate the statistical significance of the obtained solutions. The method of assessing statistical reliability of cluster structure consisted in comparing the quality of clustering on a real sample with the quality of clustering on artificially generated samples of panel data with the same number of objects, features and lengths of time series. Generation was made from a fixed probability distribution. At the same time, simulation methods imitating Gaussian white noise and random walk were used. Calculations with the Silhouette index showed that a random walk is characterized not only by spurious regression, but also by “spurious clustering”. Clustering was considered reliable for a given number of selected clusters if the index value on the real sample turned out to be greater than the value of the 95% quantile for artificial data. A set of time series of indicators characterizing production in the regions of the Russian Federation was used as a sample of real data. For these data only Silhouette shows reliable clustering at the level p < 0.05. Calculations also showed that index values for real data are generally closer to values for random walks than for white noise, but it have significant differences from both. Since three-dimensional feature space is used, the quality of clustering was also evaluated visually. Visually, one can distinguish clusters of points located close to each other, also distinguished as clusters by the applied hierarchical clustering algorithm.

  10. Холодков К.И., Алёшин И.М.
    Точное вычисление апостериорной функции распределения вероятно- сти при помощи вычислительных систем
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 539-542

    Представленная работа описывает опыт создания и развёртывания веб-приложения и гридинфраструктуры для решения задач геофизики, требующих большого количества вычислительных ресурсов. В работе представлен обзор технологии и механизма платформы интеграции геофизических приложений с распределёнными вычислительными системами. Разработанная платформа предоставляет собой промежуточное программное обеспечение, предоставляющая удобный доступ к развёрнутым на ее основе геофизическим приложениям. Доступ к приложению осуществляется через веб-браузер. Интеграция новых приложений облегчается за счёт предоставляемого стандартного универсального интерфейса взаимодействия платформы и новым приложением.

    Для организации распределённой вычислительной системы применено ПО Gridway, экземпляр которого взаимодействует с виртуализированными вычислительными кластерами. Виртуализация вычислительных кластеров предоставляет новые возможности при утилизации вычислительных ресурсов по сравнению с традиционными схемами организации кластерного ПО.

    В качестве пилотной задачи использована обратная задача определение параметров анизотропии коры и верхней мантии по данным телесейсмических наблюдений. Для решения использован вероятностный подход к решению обратных задач, основанный на формализме апостериорной функции распределения (АПФР). При этом вычислительная задача сводится к табулированию многомерной функции. Результат вычислений представлен в удобном для анализа высокоуровневом виде, доступ и управление осуществляется при помощи СУБД. Приложение предоставляет инструменты анализу АПФР: расчет первых моментов, двумерные маргинальные распределения, двумерные сечения АПФР в точках ее максимума. При тестировании веб-приложения были выполнены вычислены как синтетических, так и для реальных данных.

    Kholodkov K.I., Aleshin I.M.
    Exact calculation of a posteriori probability distribution with distributed computing systems
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 539-542

    We'd like to present a specific grid infrastructure and web application development and deployment. The purpose of infrastructure and web application is to solve particular geophysical problems that require heavy computational resources. Here we cover technology overview and connector framework internals. The connector framework links problem-specific routines with middleware in a manner that developer of application doesn't have to be aware of any particular grid software. That is, the web application built with this framework acts as an interface between the user 's web browser and Grid's (often very) own middleware.

    Our distributed computing system is built around Gridway metascheduler. The metascheduler is connected to TORQUE resource managers of virtual compute nodes that are being run atop of compute cluster utilizing the virtualization technology. Such approach offers several notable features that are unavailable to bare-metal compute clusters.

    The first application we've integrated with our framework is seismic anisotropic parameters determination by inversion of SKS and converted phases. We've used probabilistic approach to inverse problem solution based on a posteriory probability distribution function (APDF) formalism. To get the exact solution of the problem we have to compute the values of multidimensional function. Within our implementation we used brute-force APDF calculation on rectangular grid across parameter space.

    The result of computation is stored in relational DBMS and then represented in familiar human-readable form. Application provides several instruments to allow analysis of function's shape by computational results: maximum value distribution, 2D cross-sections of APDF, 2D marginals and a few other tools. During the tests we've run the application against both synthetic and observed data.

    Просмотров за год: 3.
Страницы: « первая предыдущая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.