Текущий выпуск Номер 2, 2026 Том 18

Все выпуски

Результаты поиска по 'statistical analysis':
Найдено статей: 68
  1. Усанов М.С., Кульберг Н.С., Яковлева Т.В., Морозов С.П.
    Определение дозы излучения компьютерной томографии по анализу уровня шума
    Компьютерные исследования и моделирование, 2018, т. 10, № 4, с. 525-533

    В статье рассматривается процесс создания эффективного алгоритма для определения количества излученных квантов с рентгеновской трубки в исследованиях компьютерной томографии. Анализ отечественной и зарубежной литературы показал, что большинство работ в области радиометрии и радиографии принимают во внимание табличные значения показателей поглощения рентгеновского излучения, а индивидуальные показатели дозы не учитывают вовсе, т. к. во многих исследованиях отсутствует радиометрический отчет (Dose Report) и для облегчения расчетов статистики применяется средний показатель. В связи с этим было принято решение разработать средства выявления данных об ионизирующей нагрузке путем анализа шума компьютерной томографии (КТ). В качестве основы алгоритма принята математическая модель распределения шума собственной разработки на основе распределения Пуассона и Гаусса от логарифмической величины. Результирующая математическая модель проверялась на данных КТ калибровочного фантома, состоящего из трех пластиковых цилиндров, заполненных водой, коэффициент поглощения рентгеновского излучения которых известен из табличных значений. Данные были получены с нескольких КТ приборов различных производителей (Siemens, Toshiba, GE, Phillips). Разработанный алгоритм позволил рассчитать количество излученных квантов рентгеновского излучения за единицу времени. Эти данные, с учетом уровня шума и радиусов цилиндров, были преобразованы в величины поглощения рентгеновского излучения, после чего проводилось сравнение с табличными значениями. В результате работы алгоритма с данными КТ различных конфигураций были получены экспериментальные данные, согласующиеся с теоретической частью и математической моделью. Результаты показали хорошую точность алгоритма и математического аппарата, что может говорить о достоверности полученных данных. Данная математическая модель уже применяется в программе шумоподавления КТ собственной разработки, где она участвует в качестве средства создания динамического порога шумоподавления. В данный момент алгоритм проходит процедуру доработки для работы с реальными данными компьютерной томографии пациентов.

    Usanov M.S., Kulberg N.S., Yakovleva T.V., Morozov S.P.
    Determination of CT dose by means of noise analysis
    Computer Research and Modeling, 2018, v. 10, no. 4, pp. 525-533

    The article deals with the process of creating an effective algorithm for determining the amount of emitted quanta from an X-ray tube in computer tomography (CT) studies. An analysis of domestic and foreign literature showed that most of the work in the field of radiometry and radiography takes the tabulated values of X-ray absorption coefficients into account, while individual dose factors are not taken into account at all since many studies are lacking the Dose Report. Instead, an average value is used to simplify the calculation of statistics. In this regard, it was decided to develop a method to detect the amount of ionizing quanta by analyzing the noise of CT data. As the basis of the algorithm, we used Poisson and Gauss distribution mathematical model of owns’ design of logarithmic value. The resulting mathematical model was tested on the CT data of a calibration phantom consisting of three plastic cylinders filled with water, the X-ray absorption coefficient of which is known from the table values. The data were obtained from several CT devices from different manufacturers (Siemens, Toshiba, GE, Phillips). The developed algorithm made it possible to calculate the number of emitted X-ray quanta per unit time. These data, taking into account the noise level and the radiuses of the cylinders, were converted to X-ray absorption values, after which a comparison was made with tabulated values. As a result of this operation, the algorithm used with CT data of various configurations, experimental data were obtained, consistent with the theoretical part and the mathematical model. The results showed good accuracy of the algorithm and mathematical apparatus, which shows reliability of the obtained data. This mathematical model is already used in the noise reduction program of the CT of own design, where it participates as a method of creating a dynamic threshold of noise reduction. At the moment, the algorithm is being processed to work with real data from computer tomography of patients.

    Просмотров за год: 23. Цитирований: 1 (РИНЦ).
  2. Статья посвящена исследованию социально-экономических последствий от вирусных эпидемий в условиях неоднородности экономического развития территориальных систем. Актуальность исследования обусловлена необходимостью поиска оперативных механизмов государственного управления и стабилизации неблагоприятной эпидемио-логической ситуации с учетом пространственной неоднородности распространения COVID-19, сопровождающейся концентрацией инфекции в крупных мегаполисах и на территориях с высокой экономической активностью.

    Целью работы является разработка комплексного подхода к исследованию пространственной неоднородности распространения коронавирусной инфекции с точки зрения экономических последствий пандемии в регионах России. В работе особое внимание уделяется моделированию последствий ухудшающейся эпидемиологической ситуации на динамике экономического развития региональных систем, определению полюсов роста распространения коронавирусной инфекции, пространственных кластеров и зон их влияния с оценкой межтерриториальных взаимосвязей. Особенностью разработанного подхода является пространственная кластеризация региональных систем по уровню заболеваемости COVID-19, проведенная с использованием глобального и локальных индексов пространственной автокорреляции, различных матриц пространственных весов и матрицы взаимовлияния Л.Анселина на основе статистической информации Росстата. В результате проведенного исследования были выявлены пространственный кластер, отличающийся высоким уровнем инфицирования COVID-19 с сильной зоной влияния и устойчивыми межрегиональными взаимосвязями с окружающими регионами, а также сформировавшиеся полюса роста, которые являются потенциальными полюсами дальнейшего распространения коронавирусной инфекции. Проведенный в работе регрессионный анализ с использованием панельных данных позволил сформировать модель для сценарного прогнозирования последствий от распространения коронавирусной инфекции и принятия управленческих решений органами государственной власти.

    В работе выявлено, что увеличение числа заболевших коронавирусной инфекцией влияет на сокращение среднесписочной численности работников, снижение средней начисленной заработной платы. Предложенный подход к моделированию последствий COVID-19 может быть расширен за счет использования полученных результатов исследования при проектировании агент-ориентированной моделей, которые позволят оценить средне- и долгосрочные социально-экономические последствия пандемии с точки зрения особенностей поведения различных групп населения. Проведение компьютерных экспериментов позволит воспроизвести социально-демографическая структуру населения и оценить различные ограничительные меры в регионах России и сформировать пространственные приоритеты поддержки населения и бизнеса в условиях пандемии. На основе предлагаемого методологического подхода может быть разработана агент-ориентированная модель в виде программного комплекса, предназначенного для системы поддержки принятия решений оперативным штабам, центрам мониторинга эпидемиологической ситуации, органам государственного управления на федеральном и региональном уровнях.

    Naumov I.V., Otmakhova Y.S., Krasnykh S.S.
    Methodological approach to modeling and forecasting the impact of the spatial heterogeneity of the COVID-19 spread on the economic development of Russian regions
    Computer Research and Modeling, 2021, v. 13, no. 3, pp. 629-648

    The article deals with the development of a methodological approach to forecasting and modeling the socioeconomic consequences of viral epidemics in conditions of heterogeneous economic development of territorial systems. The relevance of the research stems from the need for rapid mechanisms of public management and stabilization of adverse epidemiological situation, taking into account the spatial heterogeneity of the spread of COVID-19, accompanied by a concentration of infection in large metropolitan areas and territories with high economic activity. The aim of the work is to substantiate a methodology to assess the spatial heterogeneity of the spread of coronavirus infection, find poles of its growth, emerging spatial clusters and zones of their influence with the assessment of inter-territorial relationships, as well as simulate the effects of worsening epidemiological situation on the dynamics of economic development of regional systems. The peculiarity of the developed approach is the spatial clustering of regional systems by the level of COVID-19 incidence, conducted using global and local spatial autocorrelation indices, various spatial weight matrices, and L.Anselin mutual influence matrix based on the statistical information of the Russian Federal State Statistics Service. The study revealed a spatial cluster characterized by high levels of infection with COVID-19 with a strong zone of influence and stable interregional relationships with surrounding regions, as well as formed growth poles which are potential poles of further spread of coronavirus infection. Regression analysis using panel data not only confirmed the impact of COVID-19 incidence on the average number of employees in enterprises, the level of average monthly nominal wages, but also allowed to form a model for scenario prediction of the consequences of the spread of coronavirus infection. The results of this study can be used to form mechanisms to contain the coronavirus infection and stabilize socio-economic at macroeconomic and regional level and restore the economy of territorial systems, depending on the depth of the spread of infection and the level of economic damage caused.

  3. Рассмотрены вопросы адекватности разработанной ранее автором модели для анализа неравенства доходов, основанной на эмпирически подтвержденной гипотезе о том, что относительные (по отношению к доходу наиболее богатой группы) величины дохода 20% групп населения в совокупном доходе могут быть приближенно представлены в виде конечной функциональной последовательности, каждый член которой зависит от одного параметра — специально определенного показателя неравенства. Показано, что в дополнение к существующим методам анализа неравенства с помощью этой модели можно определить зависимость доли дохода 20%, 10% и более мелких групп населения от уровня неравенства, выявить особенности их изменения при росте неравенства, рассчитать уровень неравенства при известных соотношениях между доходами различных групп населения и др.

    В работе приводится более подробное подтверждение адекватности предложенной модели по сравнению с полученными ранее результатами статистического анализа эмпирических данных о распределении доходов между 20%- и 10%-ми группами населения. Оно основано на анализе определенных соотношений между величинами квинтилей и децилей согласно предлагаемой модели. Проверка этих соотношений проведена по совокупности данных для большого числа стран. Полученные оценки подтверждают достаточно высокую точность модели.

    Приведены данные, которые подтверждают возможность применения модели для анализа зависимости распределения доходов по группам населения от уровня неравенства, а также для оценки показателя неравенства для вариантов соотношений доходов между различными группами, в том числе когда доход 20% наиболее богатых равен доходу 60% бедных, доходу 40% среднего класса или доходу 80% остального населения, а также когда доход 10% самых богатых равен доходу 40%, 50% или 60% бедных, доходу различных групп среднего класса и др., а также для случаев, когда распределение доходов подчиняется гармоническим пропорциям и когда квинтили и децили, соответствующие среднему классу, достигают максимума. Показано, что доли дохода наиболее богатых групп среднего класса относительно стабильны и имеют максимум при определенных уровнях неравенства.

    Полученные с помощью модели результаты могут быть использованы для определения нормативов при разработке политики поэтапного повышении уровня прогрессивного налогообложения с целью перехода к уровню неравенства, характерному для стран с социально ориентированной экономикой.

    Varshavskiy A.E.
    A model for analyzing income inequality based on a finite functional sequence (adequacy and application problems)
    Computer Research and Modeling, 2022, v. 14, no. 3, pp. 675-689

    The paper considers the adequacy of the model developed earlier by the author for the analysis of income inequality and based on an empirically confirmed hypothesis that the relative (to the income of the richest group) income values of 20% population groups in total income can be represented as a finite functional sequence, each member of which depends on one parameter — a specially defined indicator of inequality. It is shown that in addition to the existing methods of inequality analysis, the model makes it possible to estimate with the help of analytical expressions the income shares of 20%, 10% and smaller groups of the population for different levels of inequality, as well as to identify how they change with the growth of inequality, to estimate the level of inequality for known ratios between the incomes of different groups of the population, etc.

    The paper provides a more detailed confirmation of the proposed model adequacy in comparison with the previously obtained results of statistical analysis of empirical data on the distribution of income between the 20% and 10% population groups. It is based on the analysis of certain ratios between the values of quintiles and deciles according to the proposed model. The verification of these ratios was carried out using a set of data for a large number of countries and the estimates obtained confirm the sufficiently high accuracy of the model.

    Data are presented that confirm the possibility of using the model to analyze the dependence of income distribution by population groups on the level of inequality, as well as to estimate the inequality indicator for income ratios between different groups, including variants when the income of the richest 20% is equal to the income of the poor 60 %, income of the middle class 40% or income of the rest 80% of the population, as well as when the income of the richest 10% is equal to the income of the poor 40 %, 50% or 60%, to the income of various middle class groups, etc., as well as for cases, when the distribution of income obeys harmonic proportions and when the quintiles and deciles corresponding to the middle class reach a maximum. It is shown that the income shares of the richest middle class groups are relatively stable and have a maximum at certain levels of inequality.

    The results obtained with the help of the model can be used to determine the standards for developing a policy of gradually increasing the level of progressive taxation in order to move to the level of inequality typical of countries with social oriented economy.

  4. Никитюк Ю.В., Марченко Л.Н., Сердюков А.Н., Бруттан Ю.В.
    Моделирование лазерной полировки кварцевого стекла
    Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 399-421

    Лазерная полировка является перспективной технологией финишной обработки изделий из кварцевого стекла, позволяющей устранять дефекты подповерхностного слоя, возникающие при механической обработке. Однако сложность и нелинейность физических процессов, протекающих при лазерном воздействии, затрудняют подбор оптимальных технологических режимов. Целью данной статьи является разработка, сравнительный анализ и применение высокоточных прогностических моделей для предсказания и оптимизации основных показателей процесса лазерной полировки кварцевого стекла. На основе верифицированной конечно-элементной модели, реализованной в среде ANSYS, был сгенерирован набор данных о температурных полях и полях напряжений при различных сочетаниях технологических параметров. Этот набор данных использовался для построения и верификации четырех типов прогностических моделей: полиномиальной регрессии, нечеткой системы вывода (Fuzzy Logic), адаптивной нейро-нечеткой системы (ANFIS) и нейронной сети типа многослойный персептрон (MLP). Качество моделей оценивалось на тестовой выборке с использованием статистических метрик МAE, RMSE, MAPE, $R^2$, $R^2_{Adj}$. Сравнительный анализ моделей показал значительное превосходство нейросетевой модели MLP, которая продемонстрировала наивысшую точность прогнозирования для всех выходных параметров, достигнув значений скорректированного коэффициента детерминации ($R^2_{Adj}$) выше 0,97 и средней абсолютной процентной ошибки (МАРЕ) в диапазоне 0,7–2,8%. Использование этой модели в качестве суррогатной функции совместно с генетическим алгоритмом позволило успешно определить оптимальные технологические параметры. Разработанная нейросетевая модель MLP является надежным и высокоточным инструментом не только для прогнозирования, но и для оптимизации результатов лазерной полировки кварцевого стекла СО2-лазером. Она способна эффективно аппроксимировать сложные нелинейные зависимости в процессе и может служить основой для создания интеллектуальных систем управления и оптимизации данной технологии.

    Nikityuk Y.V., Marchanko L.N., Serdyukov A.N., Bruttan I.V.
    Simulation of laser polishing for fused quartz
    Computer Research and Modeling, 2026, v. 18, no. 2, pp. 399-421

    Laser polishing is a promising technology for the finishing of fused quartz (fused silica or quartz glass) products, enabling the removal of subsurface defects induced by mechanical processing. However, the complexity and nonlinearity of the physical processes occurring during laser irradiation complicate the selection of optimal technological parameters. The present paper aims to develop, comparatively analyze, and apply high-precision predictive models for forecasting and optimizing the key performance indicators of the laser polishing process for quartz glass. A verified finite element model implemented in the ANSYS software environment produced a dataset of temperature and stress fields for various combinations of process parameters. This dataset was used to develop and validate four types of predictive models: Polynomial Regression, a Fuzzy Logic System, an Adaptive Neuro-Fuzzy Inference System (ANFIS), and a Multilayer Perceptron (MLP) neural network. The models’ quality was evaluated on a test set using the statistical metrics MAE, RMSE, MAPE, $R^2$, and  $R^2_{Adj}$. A comparative analysis of the models revealed the significant superiority of the MLP neural network, which demonstrated the highest prediction accuracy for all output parameters, achieving Adjusted $R^2$ ($R^2_{Adj}$.) values above 0.97 and a Mean Absolute Percentage Error (MAPE) in the range of 0.7–2.8%. This model was effectively utilized as a surrogate function in combination with a genetic algorithm to successfully identify the optimal process parameters. The constructed MLP neural network model functions as a reliable and high-precision tool, facilitating both prediction and the optimization of fused quartz polishing outcomes using a CO2 laser. This approach effectively approximates the complex nonlinear dependencies inherent in the process and can serve as a foundation for developing intelligent control and optimization systems for this technology.

  5. Коганов А.В., Злобин А.И., Ракчеева Т.А.
    Задача вычисления траектории с равномерным распределением ответов
    Компьютерные исследования и моделирование, 2014, т. 6, № 5, с. 803-828

    Рассматривается новая серия тестов, предназначенных для выявления способности человека к параллельным вычислениям. В отличие от задач, рассмотренных в предыдущих работах, в новых сериях ответы распределены статистически равномерно. Это упрощает анализ полученных результатов и уменьшает оценку статистической погрешности. Новые экспериментальные данные близки к результатам, полученным в предыдущих опытах.

    Koganov A.V., Zlobin A.I., Rakcheeva T.A.
    The task of trajectory calculation with the homogenous distribution of results
    Computer Research and Modeling, 2014, v. 6, no. 5, pp. 803-828

    We consider a new set of tests which assigns to detection of human capability for parallel calculation. The new tests support the homogenous statistical distribution of results in distinction to the tests discussed in our previous works. This feature simplifies the analysis of test results and decreases the estimate of statistical error. The new experimental data is close to results obtained in previous experiments.

    Цитирований: 3 (РИНЦ).
  6. Яковлев А.А., Абакумов А.И., Костюшко А.В., Маркелова Е.В.
    Цитокины как индикаторы состояния организма при инфекционных заболеваниях. Анализ экспериментальных данных
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1409-1426

    При заболеваниях человека в результате бактериального заражения для наблюдения за ходом болезни используются различные характеристики организма. В настоящее время одним из таких индикаторов принимается динамика концентраций цитокинов, вырабатываемых в основном клетками иммунной системы. В организме человека и многих видов животных присутствуют эти низкомолекулярные белки. Исследование цитокинов имеет важное значение для интерпретации нарушений функциональной состоятельности иммунной системы организма, оценки степени тяжести, мониторинга эффективности проводимой терапии, прогноза течения и исхода лечения. При заболевании возникает цитокиновый отклик организма, указывающий на характеристики течения болезни. Для исследования закономерностей такой индикации проведены эксперименты на лабораторных мышах. В работе анализируются экспериментальные данные о развитии пневмонии и лечении несколькими препаратами при бактериальном заражении мышей. В качестве препаратов использовались иммуномодулирующие препараты «Ронколейкин», «Лейкинферон» и «Тинростим». Данные представлены динамикой концентраций двух видов цитокинов в легочной ткани и крови животных. Многосторонний статистический и нестатистический анализ данных позволил выявить общие закономерности изменения концентраций цитокинов в организме и связать их со свойствами лечебных препаратов. Исследуемые цитокины «Интерлейкин-10» (ИЛ-10) и «Интерферон Гамма» (ИФН$\gamma$) у зараженных мышей отклоняются от нормального уровня интактных животных, указывая на развитие заболевания. Изменения концентраций цитокинов в группах лечимых мышей сравниваются с этими показателями в группе здоровых (не зараженных) мышей и группе зараженных нелеченных особей. Сравнение делается по группам особей, так как концентрации цитокинов индивидуальны и значительно отличаются у разных особей. В этих условиях только группы особей могут указать на закономерности процессов течения болезни. Эти группы мышей наблюдались в течение двух недель. Динамика концентраций цитокинов указывает на характеристики течения болезни и эффективность применяемых лечебных препаратов. Воздействие лечебного препарата на организмы отслеживается по расположению указанных групп особей в пространстве концентраций цитокинов. В этом пространстве используется расстояние Хаусдорфа между множествами векторов концентраций цитокинов у особей, основанное на евклидовом расстоянии между элементами этих множеств. Выяснено, что препараты «Ронколейкин» и «Лейкинферон» оказывают в целом сходное между собой и отличное от препарата «Тинростим» воздействие на течение болезни.

    Yakovlev A.A., Abakumov A.I., Kostyushkо A.V., Markelova E.V.
    Cytokines as indicators of the state of the organism in infectious diseases. Experimental data analysis
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1409-1426

    When person`s diseases is result of bacterial infection, various characteristics of the organism are used for observation the course of the disease. Currently, one of these indicators is dynamics of cytokine concentrations are produced, mainly by cells of the immune system. There are many types of these low molecular weight proteins in human body and many species of animals. The study of cytokines is important for the interpretation of functional disorders of the body's immune system, assessment of the severity, monitoring the effectiveness of therapy, predicting of the course and outcome of treatment. Cytokine response of the body indicating characteristics of course of disease. For research regularities of such indication, experiments were conducted on laboratory mice. Experimental data are analyzed on the development of pneumonia and treatment with several drugs for bacterial infection of mice. As drugs used immunomodulatory drugs “Roncoleukin”, “Leikinferon” and “Tinrostim”. The data are presented by two types cytokines` concentration in lung tissue and animal blood. Multy-sided statistical ana non statistical analysis of the data allowed us to find common patterns of changes in the “cytokine profile” of the body and to link them with the properties of therapeutic preparations. The studies cytokine “Interleukin-10” (IL-10) and “Interferon Gamma” (IFN$\gamma$) in infected mice deviate from the normal level of infact animals indicating the development of the disease. Changes in cytokine concentrations in groups of treated mice are compared with those in a group of healthy (not infected) mice and a group of infected untreated mice. The comparison is made for groups of individuals, since the concentrations of cytokines are individual and differ significantly in different individuals. Under these conditions, only groups of individuals can indicate the regularities of the processes of the course of the disease. These groups of mice were being observed for two weeks. The dynamics of cytokine concentrations indicates characteristics of the disease course and efficiency of used therapeutic drugs. The effect of a medicinal product on organisms is monitored by the location of these groups of individuals in the space of cytokine concentrations. The Hausdorff distance between the sets of vectors of cytokine concentrations of individuals is used in this space. This is based on the Euclidean distance between the elements of these sets. It was found that the drug “Roncoleukin” and “Leukinferon” have a generally similar and different from the drug “Tinrostim” effect on the course of the disease.

  7. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Zakharova E.M.
    Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170

    Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.

  8. Борисова Л.Р., Кузнецова А.В., Сергеева Н.В., Сенько О.В.
    Применение методов машинного обучения для сравнения компаний Арктической зоны РФ по экономическим критериям в соответствии с рейтингом Полярного индекса
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 201-215

    В работе проведен сравнительный анализ предприятий Арктической зоны Российской Федерации (АЗ РФ) по экономическим показателям в соответствии с рейтингом Полярного индекса. В исследование включены числовые данные 193 предприятий, находящихся в АЗ РФ. Применены методы машинного обучения, как стандартные, из открытых ресурсов, так и собственные оригинальные методы — метод оптимально достоверных разбиений (ОДР), метод статистически взвешенных синдромов (СВС). Проведено разбиение с указанием максимального значения функционала качества, в данном исследовании использовалось простейшее семейство разнообразных одномерных разбиений с одной-единственной граничной точкой, а также семейство различных двумерных разбиений с одной граничной точкой по каждой из двух объединяющих переменных. Перестановочные тесты позволяют не только оценивать достоверность данных выявленных закономерностей, но и исключать из множества выявленных закономерностей разбиения с избыточной сложностью.

    Использование метода ОДР на одномерных показателях выявило закономерности, которые связывают номер класса с экономическими показателями. Также в приведенном исследовании представлены закономерности, которые выявлены в рамках простейшей одномерной модели с одной граничной точкой и со значимостью не хуже чем $p < 0.001$.

    Для достоверной оценки подобной диагностической способности использовали так называемый метод скользящего контроля. В результате этих исследований был выделен целый набор методов, которые обладали достаточной эффективностью.

    Коллективный метод по результатам нескольких методов машинного обучения показал высокую значимость экономических показателей для разделения предприятий в соответствии с рейтингом Полярного индекса.

    Наше исследование доказало и показало, что те предприятия, которые вошли в топ рейтинга Полярного индекса, в целом распознаются по финансовым показателям среди всех компаний Арктической зоны. Вместе с тем представляется целесообразным включение в анализ также экологических и социальных факторов.

    Borisova L.R., Kuznetsova A.V., Sergeeva N.V., Sen'ko O.V.
    Comparison of Arctic zone RF companies with different Polar Index ratings by economic criteria with the help of machine learning tools
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 201-215

    The paper presents a comparative analysis of the enterprises of the Arctic Zone of the Russian Federation (AZ RF) on economic indicators in accordance with the rating of the Polar index. This study includes numerical data of 193 enterprises located in the AZ RF. Machine learning methods are applied, both standard, from open source, and own original methods — the method of Optimally Reliable Partitions (ORP), the method of Statistically Weighted Syndromes (SWS). Held split, indicating the maximum value of the functional quality, this study used the simplest family of different one-dimensional partition with a single boundary point, as well as a collection of different two-dimensional partition with one boundary point on each of the two combining variables. Permutation tests allow not only to evaluate the reliability of the data of the revealed regularities, but also to exclude partitions with excessive complexity from the set of the revealed regularities. Patterns connected the class number and economic indicators are revealed using the SDT method on one-dimensional indicators. The regularities which are revealed within the framework of the simplest one-dimensional model with one boundary point and with significance not worse than p < 0.001 are also presented in the given study. The so-called sliding control method was used for reliable evaluation of such diagnostic ability. As a result of these studies, a set of methods that had sufficient effectiveness was identified. The collective method based on the results of several machine learning methods showed the high importance of economic indicators for the division of enterprises in accordance with the rating of the Polar index. Our study proved and showed that those companies that entered the top Rating of the Polar index are generally recognized by financial indicators among all companies in the Arctic Zone. However it would be useful to supplement the list of indicators with ecological and social criteria.

  9. Попов А.Б.
    Неэкстенсивная статистика Тсаллиса системы контрактоворганизаций оборонно-промышленного комплекса
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1163-1183

    В работе проведен анализ системы контрактов, заключаемых организациями оборонно-промышленного комплекса России в процессе выполнения государственного оборонного заказа. Сделан вывод, что для описания данной системы может быть использована методология статистической механики. По аналогии с подходом, применяемым при рассмотрении большого канонического ансамбля Гиббса, изучаемый ансамбль сформирован в виде набора мгновенных «картинок», образованных из действующих в каждый момент времени неразличимых контрактов со своими стоимостями. Показано, что ограничения, накладываемые государством на процесс ценообразования, являются причиной того, что совокупность контрактов может быть отнесена к категории так называемых сложных систем, для описания которых используется неэкстенсивная статистика Тсаллиса. Это приводит к тому, что стоимостные распределения контрактов должны соответствовать деформированному распределению Бозе–Эйнштейна, полученному с использованием энтропии Тсаллиса. Данный вывод справедлив как для всей совокупности контрактов, заключаемых участниками выполнения государственного оборонного заказа, так и контрактов, заключаемых отдельной организацией в качестве исполнителя.

    Для анализа степени соответствия эмпирических стоимостных распределений модифицированному распределению Бозе–Эйнштейна в настоящей работе использован метод сравнения соответствующих функций распределения вероятностей. В работе делается вывод о том, что для изучения стоимостных распределений контрактов отдельной организации в качестве анализируемых данных можно использовать сформировавшиеся за календарный год распределения выручки по отдельным заказам, соответствующим заключенным контрактам. Получены эмпирические функции распределения вероятностей ранжированных значений выручки от реализации по отдельным заказам АО «Концерн «ЦНИИ «Электроприбор», одной из ведущих приборостроительных организаций ОПК России, с 2007 по 2021 год. Наблюдается хорошее согласие между эмпирическими и теоретическими функциями распределений вероятностей, рассчитанными с использованием деформированных распределений Бозе–Эйнштейна в пределе «разряженного газа контрактов». Полученные на основе эмпирических данных значения параметров энтропийного индекса для каждого из изученных распределений выручки свидетельствуют о достаточно высокой степени неаддитивности, присущей изучаемой системе. Показано, что для оценки характеристических стоимостей распределений можно использовать величину среднего значения годовой выручки, рассчитанного с помощью нормированного эскортного распределения. Факт наилучшего согласия эмпирических и теоретических функций распределения вероятностей при нулевых значениях химического потенциала позволяет сделать предположение, что изучаемый «газ контрактов» можно сравнить с газом фотонов, в котором число частиц не является постоянным.

    Popov A.B.
    Nonextensive Tsallis statistics of contract system of prime contractors and subcontractors in defense industry
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1163-1183

    In this work, we analyze the system of contracts made by Russian defense enterprises in the process of state defense order execution. We conclude that methods of statistical mechanics can be applied to the description of the given system. Following the original grand-canonical ensemble approach, we can create the statistical ensemble under investigation as a set of instant snapshots of indistinguishable contracts having individual values. We show that due to government regulations of contract prices the contract system can be described in terms of nonextensive Tsallis statistics. We have found that probability distributions of contract prices correspond to deformed Bose – Einstein distributions obtained using nonextensive Tsallis entropy. This conclusion is true both in the case of the whole set of contracts and in the case of the contracts made by an individual defense company as a seller.

    In order to analyze how deformed Bose – Einstein distributions fit the empirical contract price distributions we compare the corresponding cumulative distribution functions. We conclude that annual distributions of individual sales which correspond to each company’s contract (order) can be used as relevant data for contract price distributions analysis. The empirical cumulative distribution functions for the individual sales ranking of Concern CSRI Elektropribor, one of the leading Russian defense companies, are analyzed for the period 2007–2021. The theoretical cumulative distribution functions, obtained using deformed Bose – Einstein distributions in the case of «rare contract gas» limit, fit well to the empirical cumulative distribution functions. The fitted values for the entropic index show that the degree of nonextensivity of the system under investigations is rather high. It is shown that the characteristic prices of distributions can be estimated by weighing the values of annual individual sales with the escort probabilities. Given that the fitted values of chemical potential are equal to zero, we suggest that «gas of contracts» can be compared to photon gas in which the number of particles is not conserved.

  10. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183

    Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.

Страницы: « первая предыдущая следующая последняя »

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.