Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Методологический подход к моделированию и прогнозированию воздействия пространственной неоднородности процессов распространения COVID-19 на экономическое развитие регионов России
Компьютерные исследования и моделирование, 2021, т. 13, № 3, с. 629-648Статья посвящена исследованию социально-экономических последствий от вирусных эпидемий в условиях неоднородности экономического развития территориальных систем. Актуальность исследования обусловлена необходимостью поиска оперативных механизмов государственного управления и стабилизации неблагоприятной эпидемио-логической ситуации с учетом пространственной неоднородности распространения COVID-19, сопровождающейся концентрацией инфекции в крупных мегаполисах и на территориях с высокой экономической активностью.
Целью работы является разработка комплексного подхода к исследованию пространственной неоднородности распространения коронавирусной инфекции с точки зрения экономических последствий пандемии в регионах России. В работе особое внимание уделяется моделированию последствий ухудшающейся эпидемиологической ситуации на динамике экономического развития региональных систем, определению полюсов роста распространения коронавирусной инфекции, пространственных кластеров и зон их влияния с оценкой межтерриториальных взаимосвязей. Особенностью разработанного подхода является пространственная кластеризация региональных систем по уровню заболеваемости COVID-19, проведенная с использованием глобального и локальных индексов пространственной автокорреляции, различных матриц пространственных весов и матрицы взаимовлияния Л.Анселина на основе статистической информации Росстата. В результате проведенного исследования были выявлены пространственный кластер, отличающийся высоким уровнем инфицирования COVID-19 с сильной зоной влияния и устойчивыми межрегиональными взаимосвязями с окружающими регионами, а также сформировавшиеся полюса роста, которые являются потенциальными полюсами дальнейшего распространения коронавирусной инфекции. Проведенный в работе регрессионный анализ с использованием панельных данных позволил сформировать модель для сценарного прогнозирования последствий от распространения коронавирусной инфекции и принятия управленческих решений органами государственной власти.
В работе выявлено, что увеличение числа заболевших коронавирусной инфекцией влияет на сокращение среднесписочной численности работников, снижение средней начисленной заработной платы. Предложенный подход к моделированию последствий COVID-19 может быть расширен за счет использования полученных результатов исследования при проектировании агент-ориентированной моделей, которые позволят оценить средне- и долгосрочные социально-экономические последствия пандемии с точки зрения особенностей поведения различных групп населения. Проведение компьютерных экспериментов позволит воспроизвести социально-демографическая структуру населения и оценить различные ограничительные меры в регионах России и сформировать пространственные приоритеты поддержки населения и бизнеса в условиях пандемии. На основе предлагаемого методологического подхода может быть разработана агент-ориентированная модель в виде программного комплекса, предназначенного для системы поддержки принятия решений оперативным штабам, центрам мониторинга эпидемиологической ситуации, органам государственного управления на федеральном и региональном уровнях.
Ключевые слова: пространственная неоднородность, пространственная автокорреляция, кластеризация, локальный индекс Морана, межрегиональные взаимосвязи, коронавирусная инфекция, пространственно-временное моделирование, панельные данные, региональные системы.
Methodological approach to modeling and forecasting the impact of the spatial heterogeneity of the COVID-19 spread on the economic development of Russian regions
Computer Research and Modeling, 2021, v. 13, no. 3, pp. 629-648The article deals with the development of a methodological approach to forecasting and modeling the socioeconomic consequences of viral epidemics in conditions of heterogeneous economic development of territorial systems. The relevance of the research stems from the need for rapid mechanisms of public management and stabilization of adverse epidemiological situation, taking into account the spatial heterogeneity of the spread of COVID-19, accompanied by a concentration of infection in large metropolitan areas and territories with high economic activity. The aim of the work is to substantiate a methodology to assess the spatial heterogeneity of the spread of coronavirus infection, find poles of its growth, emerging spatial clusters and zones of their influence with the assessment of inter-territorial relationships, as well as simulate the effects of worsening epidemiological situation on the dynamics of economic development of regional systems. The peculiarity of the developed approach is the spatial clustering of regional systems by the level of COVID-19 incidence, conducted using global and local spatial autocorrelation indices, various spatial weight matrices, and L.Anselin mutual influence matrix based on the statistical information of the Russian Federal State Statistics Service. The study revealed a spatial cluster characterized by high levels of infection with COVID-19 with a strong zone of influence and stable interregional relationships with surrounding regions, as well as formed growth poles which are potential poles of further spread of coronavirus infection. Regression analysis using panel data not only confirmed the impact of COVID-19 incidence on the average number of employees in enterprises, the level of average monthly nominal wages, but also allowed to form a model for scenario prediction of the consequences of the spread of coronavirus infection. The results of this study can be used to form mechanisms to contain the coronavirus infection and stabilize socio-economic at macroeconomic and regional level and restore the economy of territorial systems, depending on the depth of the spread of infection and the level of economic damage caused.
-
Распознавание эффектов и механизма действия препаратов на основе анализа внутричерепной ЭЭГ с помощью методов глубокого обучения
Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 755-772Прогнозирование новых свойств лекарственных средств является основной задачей в рамках решения проблем полифармакологии, репозиционирования, а также изучения биологически активных веществ на доклиническом этапе. Идентификация фармакологических эффектов и взаимодействий «препарат – мишень» с использованием машинного обучения (включая методы глубокого обучения) набирает популярность в последние годы.
Цель работы состояла в разработке метода распознавания психотропных эффектов и механизма действия (взаимодействий препарата с мишенью) на основании анализа биоэлектрической активности мозга с применением технологий искусственного интеллекта.
Выполнялась регистрация электроэнцефалографических (ЭЭГ) сигналов крыс (4 канала, частота дискретизации — 500 Гц) после введения психотропных препаратов (габапентин, диазепам, карбамазепин, прегабалин, эсликарбазепин, феназепам, ареколин, коразол, пикротоксин, пилокарпин, хлоралгидрат). Сигналы (эпохи продолжительностью 2 с) преобразовывались в изображения $(2000 \times 4)$ и затем поступали на вход автоэнкодера. Выходные данные слоя «бутылочного горлышка» классифицировались и кластеризовались (с применением алгоритма t-SNE), а затем вычислялись расстояния между кластерами в пространстве параметров. В качестве альтернативны использовался подход, основанный на извлечении признаков с размерной редукцией при помощи метода главных компонент и классификацией методом опорных векторов с ядерной функцией (kSVM). Модели валидировались путем 5-кратной кроссвалидации.
Точность классификации для 11 препаратов, полученная в ходе кросс-валидации, достигала $0,580 \pm 0,021$, что значительно превышает точность случайного классификатора, которая составляла $0,091 \pm 0,045$ $(p < 0,0001)$, и точность kSVM, равную $0,441 \pm 0,035$ $(p < 0,05)$. Получены t-SNE-карты параметров «бутылочного горлышка» сигналов интракраниальной ЭЭГ. Определена относительная близость кластеров сигналов в параметрическом пространстве.
В настоящем исследовании представлен оригинальный метод биопотенциал-опосредованного прогнозирования эффектов и механизма действия (взаимодействия лекарственного средства с мишенью). Метод использует сверточные нейронные сети в сочетании с модифицированным алгоритмом избирательной редукции параметров. ЭЭГ-сигналы, зарегистрированные после введения препаратов, были представлены в едином пространстве параметров в сжатой форме. Полученные данные указывают на возможность распознавания паттернов нейронального отклика в ответ на введение различных психотропных препаратов с помощью предложенного нейросетевого классификатора и кластеризации.
Ключевые слова: глубокое обучение, машинное обучение, ЭЭГ, сверточная нейронная сеть, классификация, кластеризация, прогнозирование взаимодействия препарата с мишенью.
Deep learning analysis of intracranial EEG for recognizing drug effects and mechanisms of action
Computer Research and Modeling, 2024, v. 16, no. 3, pp. 755-772Predicting novel drug properties is fundamental to polypharmacology, repositioning, and the study of biologically active substances during the preclinical phase. The use of machine learning, including deep learning methods, for the identification of drug – target interactions has gained increasing popularity in recent years.
The objective of this study was to develop a method for recognizing psychotropic effects and drug mechanisms of action (drug – target interactions) based on an analysis of the bioelectrical activity of the brain using artificial intelligence technologies.
Intracranial electroencephalographic (EEG) signals from rats were recorded (4 channels at a sampling frequency of 500 Hz) after the administration of psychotropic drugs (gabapentin, diazepam, carbamazepine, pregabalin, eslicarbazepine, phenazepam, arecoline, pentylenetetrazole, picrotoxin, pilocarpine, chloral hydrate). The signals were divided into 2-second epochs, then converted into $2000\times 4$ images and input into an autoencoder. The output of the bottleneck layer was subjected to classification and clustering using t-SNE, and then the distances between resulting clusters were calculated. As an alternative, an approach based on feature extraction with dimensionality reduction using principal component analysis and kernel support vector machine (kSVM) classification was used. Models were validated using 5-fold cross-validation.
The classification accuracy obtained for 11 drugs during cross-validation was $0.580 \pm 0.021$, which is significantly higher than the accuracy of the random classifier $(0.091 \pm 0.045, p < 0.0001)$ and the kSVM $(0.441 \pm 0.035, p < 0.05)$. t-SNE maps were generated from the bottleneck parameters of intracranial EEG signals. The relative proximity of the signal clusters in the parametric space was assessed.
The present study introduces an original method for biopotential-mediated prediction of effects and mechanism of action (drug – target interaction). This method employs convolutional neural networks in conjunction with a modified selective parameter reduction algorithm. Post-treatment EEGs were compressed into a unified parameter space. Using a neural network classifier and clustering, we were able to recognize the patterns of neuronal response to the administration of various psychotropic drugs.
-
Запуск приложений на гибридном кластере
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 475-483Гибридный кластер подразумевает использование вычислительных ресурсов с различными архитектурами. Как правило, в таких системах используется CPU распространенной архитектуры (например, x86_64) и GPU (например, NVIDIA CUDA). Создание и эксплуатация подобного кластера требует определенного опыта: для того чтобы задействовать все вычислительные мощности такой системы и получить существенное ускорение на задачах, требуется учесть множество факторов. К таким факторам относятся как характеристики оборудования (например, особенности сетевой инфраструктуры, хранилища, архитектуры GPU), так и характеристики программного обеспечения (например, реализация MPI, библиотеки для работы с GPU). Таким образом для эффективных научных расчетов на подобных системах требуется помнить о характеристиках ускорителя (GPU), особенностях программного обеспечения, характеристиках задачи и о многих других факторах.
В этой статье анализируются достоинства и недостатки гибридных вычислений. Будут приведены результаты запуска некоторых тестов и научных приложений, использующих GPGPU. Основное внимание уделено программных продуктах с открытым исходным кодом, которые поддерживают работу с GPGPU.
Существует несколько подходов для организации гетерогенных вычислений. В данной статье мы рассмотрим приложения, использующие CUDA и OpenCL. CUDA довольно часто используется в подобных гибридных системах, в то время как переносимость OpenCL-приложений может сыграть решающую роль при выборе средства для разработки. Мы также уделим внимание системам с несколькими GPU, которые все чаще используются в рамках подобных кластеров. Вычисления проводились на гибридном кластере ресурсного центра «Вычислительный центр СПбГУ».
Ключевые слова: GPGPU, высокопроизводительные вычисления, вычислительные кластеры, OpenFOAM, LINPACK, ViennaCL, CUDA, OpenCL.
Running applications on a hybrid cluster
Computer Research and Modeling, 2015, v. 7, no. 3, pp. 475-483Просмотров за год: 4.A hybrid cluster implies the use of computational devices with radically different architectures. Usually, these are conventional CPU architecture (e.g. x86_64) and GPU architecture (e. g. NVIDIA CUDA). Creating and exploiting such a cluster requires some experience: in order to harness all computational power of the described system and get substantial speedup for computational tasks many factors should be taken into account. These factors consist of hardware characteristics (e.g. network infrastructure, a type of data storage, GPU architecture) as well as software stack (e.g. MPI implementation, GPGPU libraries). So, in order to run scientific applications GPU capabilities, software features, task size and other factors should be considered.
This report discusses opportunities and problems of hybrid computations. Some statistics from tests programs and applications runs will be demonstrated. The main focus of interest is open source applications (e. g. OpenFOAM) that support GPGPU (with some parts rewritten to use GPGPU directly or by replacing libraries).
There are several approaches to organize heterogeneous computations for different GPU architectures out of which CUDA library and OpenCL framework are compared. CUDA library is becoming quite typical for hybrid systems with NVIDIA cards, but OpenCL offers portability opportunities which can be a determinant factor when choosing framework for development. We also put emphasis on multi-GPU systems that are often used to build hybrid clusters. Calculations were performed on a hybrid cluster of SPbU computing center.
-
Моделирование процесса истощения газоконденсатного пласта
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1081-1095Одна из трудностей разработки газоконденсатных месторождений обусловлена тем, что часть углеводородов газоносного слоя присутствует в немв виде конденсата, который застревает в порах пласта и извлечению не подлежит. В этой связи активно ведутся исследования, направленные на повышение извлекаемости углеводородов в подобных месторождениях. В том числе значительное количество публикаций посвящено развитию методов математического моделирования прохождения многокомпонентных газоконденсатных смесей через пористую среду в различных условиях.
В настоящей работе в рамках классического подхода, основанного на законе Дарси и законе неразрывности потоков, сформулирована математическая постановка начально-граничной задачи для системы нелинейных дифференциальных уравнений, описывающая прохождение многокомпонентной газоконденсатной смеси через пористую среду в режиме истощения. Разработанная обобщенная вычислительная схема на основе конечно-разностной аппроксимации и метода Рунге – Кутты четвертого порядка может использоваться для расчетов как в пространственно одномерном случае, соответствующемусловиям лабораторного эксперимента, так и в двумерном случае, когда речь идет о моделировании плоского газоносного пласта с круговой симметрией.
Численное решение упомянутой системы уравнений реализовано на основе комбинированного использования C++ и Maple с применением технологии параллельного программирования MPI для ускорения вычислений. Расчеты выполнены на кластере HybriLIT Многофункционального информационно-вычислительного комплекса Лаборатории информационных технологий Объединенного института ядерных исследований.
Численные результаты сопоставлены с данными о динамике выхода девятикомпонентной углеводородной смеси в зависимости от давления, полученными на лабораторной установке (ВНИИГАЗ, Ухта). Расчеты проводились для двух типов пористого наполнителя в лабораторной модели пласта: терригенного (при 25 ◦С) и карбонатного (при 60 ◦С). Показано, что используемый подход обеспечивает согласие полученных численных результатов с экспериментальными данными. Путем подгонки к экспериментальным данным по истощению лабораторной модели пласта получены значения параметров, определяющих коэффициент межфазного перехода для моделируемой системы. С использованием тех же параметров было проведено компьютерное моделирование истощения тонкого газоносного слоя в приближении круговой симметрии.
Ключевые слова: компьютерное моделирование, многокомпонентная система углеводородов.
Simulation of the gas condensate reservoir depletion
Computer Research and Modeling, 2020, v. 12, no. 5, pp. 1081-1095One of problems in developing the gas condensate fields lies on the fact that the condensed hydrocarbons in the gas-bearing layer can get stuck in the pores of the formation and hence cannot be extracted. In this regard, research is underway to increase the recoverability of hydrocarbons in such fields. This research includes a wide range of studies on mathematical simulations of the passage of gas condensate mixtures through a porous medium under various conditions.
In the present work, within the classical approach based on the Darcy law and the law of continuity of flows, we formulate an initial-boundary value problem for a system of nonlinear differential equations that describes a depletion of a multicomponent gas-condensate mixture in porous reservoir. A computational scheme is developed on the basis of the finite-difference approximation and the fourth order Runge .Kutta method. The scheme can be used for simulations both in the spatially one-dimensional case, corresponding to the conditions of the laboratory experiment, and in the two-dimensional case, when it comes to modeling a flat gas-bearing formation with circular symmetry.
The computer implementation is based on the combination of C++ and Maple tools, using the MPI parallel programming technique to speed up the calculations. The calculations were performed on the HybriLIT cluster of the Multifunctional Information and Computing Complex of the Laboratory of Information Technologies of the Joint Institute for Nuclear Research.
Numerical results are compared with the experimental data on the pressure dependence of output of a ninecomponent hydrocarbon mixture obtained at a laboratory facility (VNIIGAZ, Ukhta). The calculations were performed for two types of porous filler in the laboratory model of the formation: terrigenous filler at 25 .„R and carbonate one at 60 .„R. It is shown that the approach developed ensures an agreement of the numerical results with experimental data. By fitting of numerical results to experimental data on the depletion of the laboratory reservoir, we obtained the values of the parameters that determine the inter-phase transition coefficient for the simulated system. Using the same parameters, a computer simulation of the depletion of a thin gas-bearing layer in the circular symmetry approximation was carried out.
-
Агентная модель межкультурных взаимодействий: возникновение культурных неопределенностей
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1143-1162В статье описывается имитационная агентная модель межкультурных взаимодействий в стране, население которой принадлежит к разным культурам. Считается, что пространство культур может быть представлено как гильбертово пространство, в котором различным культурам соответствуют определенные подпространства. В модели понятие «культура» понимается как некоторое структурированное подпространство гильбертова пространства. Это позволяет описывать состояние агентов вектором в гильбертовом пространстве. Считается, что каждый агент описывается принадлежностью к определенной культуре. Численности агентов, принадлежащие определенным культурам, определяются демографическими процессами, которые соответствуют данным культурам, глубиной и целостностью образовательного процесса, а также интенсивностью межкультурных контактов. Взаимодействие между агентами происходит внутри кластеров, на которые по определенным критериям разбивается все множество агентов. При взаимодействии между агентами по определенному алгоритму изменяются длина и угол, характеризующий состояние агента. В процессе имитации в зависимости от количества агентов, относящихся к различным культурам, интенсивности демографических и образовательных процессов, а также интенсивности межкультурных контактов формируются совокупности агентов (кластеры), агенты которых принадлежат разным культурам. Такие межкультурные кластеры не принадлежат целиком ни к одной из рассматриваемых первоначально в модели культур. Такие межкультурные кластеры порождают неопределенности в культурной динамике. В работе приводятся результаты имитационных экспериментов, которые иллюстрируют влияние демографических и образовательных процессов на динамику межкультурных кластеров. Обсуждаются вопросы развития предложенного подхода к изучению (обсуждению) переходных состояний развития культур.
The agent model of intercultural interactions: the emergence of cultural uncertainties
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1143-1162The article describes a simulation agent-based model of intercultural interactions in a country whose population belongs to different cultures. It is believed that the space of cultures can be represented as a Hilbert space, in which certain subspaces correspond to different cultures. In the model, the concept of culture is understood as a structured subspace of the Hilbert space. This makes it possible to describe the state of agents by a vector in a Hilbert space. It is believed that each agent is described by belonging to a certain «culture». The number of agents belonging to certain cultures is determined by demographic processes that correspond to these cultures, the depth and integrity of the educational process, as well as the intensity of intercultural contacts. Interaction between agents occurs within clusters, into which, according to certain criteria, the entire set of agents is divided. When agents interact according to a certain algorithm, the length and angle that characterize the state of the agent change. In the process of imitation, depending on the number of agents belonging to different cultures, the intensity of demographic and educational processes, as well as the intensity of intercultural contacts, aggregates of agents (clusters) are formed, the agents of which belong to different cultures. Such intercultural clusters do not entirely belong to any of the cultures initially considered in the model. Such intercultural clusters create uncertainties in cultural dynamics. The paper presents the results of simulation experiments that illustrate the influence of demographic and educational processes on the dynamics of intercultural clusters. The issues of the development of the proposed approach to the study (discussion) of the transitional states of the development of cultures are discussed.
-
Проблема выбора решений при классическом формате описания молекулярной системы
Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1573-1600Разработанные автором недавно численные методики расчета молекулярной системы на базе прямого решения уравнения Шрёдингера методом Монте-Карло показали огромную неопределенностьв выборе решений. С одной стороны, оказалось возможным построить множество новых решений, с другой стороны, резко обостриласьпроб лема их связывания с реальностью. В квантовомеханических расчетах ab initio проблема выбора решений стоит не так остро после перехода к классическому формату описания молекулярной системы в терминах потенциальной энергии, метода молекулярной динамики и пр. В данной работе исследуется проблема выбора решений при классическом формате описания молекулярной системы без учета квантовомеханических предпосылок. Как оказалось, проблема выбора решений при классическом формате описания молекулярной системы сводится к конкретной разметке конфигурационного пространства в виде набора стационарных точек и реконструкции соответствующей функции потенциальной энергии. В такой постановке решение проблемы выбора сводится к двум возможным физико-математическим задачам: по заданной функции потенциальной энергии найти все ее стационарные точки (прямая задача проблемы выбора), по заданному набору стационарных точек реконструироватьф ункцию потенциальной энергии (обратная задача проблемы выбора). В работе с помощью вычислительного эксперимента обсуждается прямая задача проблемы выбора на примере описания моноатомного кластера. Численно оцениваются число и форма локально равновесных (седловых) конфигураций бинарного потенциала. Вводится соответствующая мера по различению конфигураций в пространстве. Предлагается формат построения всей цепочки многочастичных вкладов в функцию потенциальной энергии: бинарный, трехчастичный и т.д., многочастичный потенциал максимальной частичности. Обсуждается и иллюстрируется бесконечное количество локально равновесных (седловых) конфигураций для максимально многочастичного потенциала. Предлагается методика вариации числа стационарных точек путем комбинирования многочастичных вкладов в функцию потенциальной энергии. Перечисленные выше результаты работы направлены на то, чтобы уменьшить тот огромный произвол выбора формы потенциала, который имеет место в настоящее время. Уменьшение произвола выбора выражается в том, что имеющиеся знания о вполне конкретном наборе стационарных точек согласуются с соответствующей формой функции потенциальной энергии.
Ключевые слова: проблема выбора решений, разметка пространства, моноатомный кластер, вычислительный эксперимент, градиентный спуск, функция потенциальной энергии, бинарный и многочастичный потенциалы.
The problem of choosing solutions in the classical format of the description of a molecular system
Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1573-1600The numerical methods developed by the author recently for calculating the molecular system based on the direct solution of the Schrodinger equation by the Monte Carlo method have shown a huge uncertainty in the choice of solutions. On the one hand, it turned out to be possible to build many new solutions; on the other hand, the problem of their connection with reality has become sharply aggravated. In ab initio quantum mechanical calculations, the problem of choosing solutions is not so acute after the transition to the classical format of describing a molecular system in terms of potential energy, the method of molecular dynamics, etc. In this paper, we investigate the problem of choosing solutions in the classical format of describing a molecular system without taking into account quantum mechanical prerequisites. As it turned out, the problem of choosing solutions in the classical format of describing a molecular system is reduced to a specific marking of the configuration space in the form of a set of stationary points and reconstruction of the corresponding potential energy function. In this formulation, the solution of the choice problem is reduced to two possible physical and mathematical problems: to find all its stationary points for a given potential energy function (the direct problem of the choice problem), to reconstruct the potential energy function for a given set of stationary points (the inverse problem of the choice problem). In this paper, using a computational experiment, the direct problem of the choice problem is discussed using the example of a description of a monoatomic cluster. The number and shape of the locally equilibrium (saddle) configurations of the binary potential are numerically estimated. An appropriate measure is introduced to distinguish configurations in space. The format of constructing the entire chain of multiparticle contributions to the potential energy function is proposed: binary, threeparticle, etc., multiparticle potential of maximum partiality. An infinite number of locally equilibrium (saddle) configurations for the maximum multiparticle potential is discussed and illustrated. A method of variation of the number of stationary points by combining multiparticle contributions to the potential energy function is proposed. The results of the work listed above are aimed at reducing the huge arbitrariness of the choice of the form of potential that is currently taking place. Reducing the arbitrariness of choice is expressed in the fact that the available knowledge about the set of a very specific set of stationary points is consistent with the corresponding form of the potential energy function.
-
Подходы к кластеризации групп социальной сети
Компьютерные исследования и моделирование, 2015, т. 7, № 5, с. 1127-1139Исследование посвящено проблеме использования социальных сетей в качестве инструмента в противозаконной деятельности и источника информации, способного нести опасность обществу. В статье приводится структура мультиагентной системы, под управлением которой может осуществляться кластеризация групп социальной сети по критериям, однозначно определяющим группу в качестве деструктивной. Приведен алгоритм, который используют агенты системы для кластеризации.
Approaches to a social network groups clustering
Computer Research and Modeling, 2015, v. 7, no. 5, pp. 1127-1139Просмотров за год: 8. Цитирований: 2 (РИНЦ).The research is devoted to the problem of the use of social networks as a tool of the illegal activity and as a source of information that could be dangerous to society. The article presents the structure of the multiagent system with which a social network groups could be clustered according to the criteria uniquely defines a group as a destructive. The agents’ of the system clustering algorithm is described.
-
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
Extracting knowledge from text messages: overview and state-of-the-art
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1291-1315In general, solving the information explosion problem can be delegated to systems for automatic processing of digital data. These systems are intended for recognizing, sorting, meaningfully processing and presenting data in formats readable and interpretable by humans. The creation of intelligent knowledge extraction systems that handle unstructured data would be a natural solution in this area. At the same time, the evident progress in these tasks for structured data contrasts with the limited success of unstructured data processing, and, in particular, document processing. Currently, this research area is undergoing active development and investigation. The present paper is a systematic survey on both Russian and international publications that are dedicated to the leading trend in automatic text data processing: Text Mining (TM). We cover the main tasks and notions of TM, as well as its place in the current AI landscape. Furthermore, we analyze the complications that arise during the processing of texts written in natural language (NLP) which are weakly structured and often provide ambiguous linguistic information. We describe the stages of text data preparation, cleaning, and selecting features which, alongside the data obtained via morphological, syntactic, and semantic analysis, constitute the input for the TM process. This process can be represented as mapping a set of text documents to «knowledge». Using the case of stock trading, we demonstrate the formalization of the problem of making a trade decision based on a set of analytical recommendations. Examples of such mappings are methods of Information Retrieval (IR), text summarization, sentiment analysis, document classification and clustering, etc. The common point of all tasks and techniques of TM is the selection of word forms and their derivatives used to recognize content in NL symbol sequences. Considering IR as an example, we examine classic types of search, such as searching for word forms, phrases, patterns and concepts. Additionally, we consider the augmentation of patterns with syntactic and semantic information. Next, we provide a general description of all NLP instruments: morphological, syntactic, semantic and pragmatic analysis. Finally, we end the paper with a comparative analysis of modern TM tools which can be helpful for selecting a suitable TM platform based on the user’s needs and skills.
-
Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.
Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.
Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.
Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.
Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.
Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.
Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.
Ключевые слова: тематическое моделирование, иерархическая агломеративная группировка, онтология, общий словарь, контентная аутентичность.
Semantic structuring of text documents based on patterns of natural language entities
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1185-1197The technology of creating patterns from natural language words (concepts) based on text data in the bag of words model is considered. Patterns are used to reduce the dimension of the original space in the description of documents and search for semantically related words by topic. The process of dimensionality reduction is implemented through the formation of patterns of latent features. The variety of structures of document relations is investigated in order to divide them into themes in the latent space.
It is considered that a given set of documents (objects) is divided into two non-overlapping classes, for the analysis of which it is necessary to use a common dictionary. The belonging of words to a common vocabulary is initially unknown. Class objects are considered as opposition to each other. Quantitative parameters of oppositionality are determined through the values of the stability of each feature and generalized assessments of objects according to non-overlapping sets of features.
To calculate the stability, the feature values are divided into non-intersecting intervals, the optimal boundaries of which are determined by a special criterion. The maximum stability is achieved under the condition that the boundaries of each interval contain values of one of the two classes.
The composition of features in sets (patterns of words) is formed from a sequence ordered by stability values. The process of formation of patterns and latent features based on them is implemented according to the rules of hierarchical agglomerative grouping.
A set of latent features is used for cluster analysis of documents using metric grouping algorithms. The analysis applies the coefficient of content authenticity based on the data on the belonging of documents to classes. The coefficient is a numerical characteristic of the dominance of class representatives in groups.
To divide documents into topics, it is proposed to use the union of groups in relation to their centers. As patterns for each topic, a sequence of words ordered by frequency of occurrence from a common dictionary is considered.
The results of a computational experiment on collections of abstracts of scientific dissertations are presented. Sequences of words from the general dictionary on 4 topics are formed.
-
Модернизация как глобальный процесс: опыт математического моделирования
Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 859-873В статье проведен анализ эмпирических данных по долгосрочной демографической и экономической динамике стран мира за период с начала XIX века по настоящее время. В качестве показателей, характеризующих долгосрочную демографическую и экономическую динамику стран мира, были выбраны данные по численности населения и ВВП ряда стран мира за период 1500–2016 годов. Страны выбирались таким образом, чтобы в их число вошли представители с различным уровнем развития (развитые и развивающиеся страны), а также страны из различных регионов мира (Северная Америка, Южная Америка, Европа, Азия, Африка). Для моделирования и обработки данных использована специально разработанная математическая модель. Представленная модель является автономной системой дифференциальных уравнений, которая описывает процессы социально-экономической модернизации, в том числе процесс перехода от аграрного общества к индустриальному и постиндустриальному. В модель заложена идея о том, что процесс модернизации начинается с возникновения в традиционном обществе инновационного сектора, развивающегося на основе новых технологий. Население из традиционного сектора постепенно перемещается в инновационный сектор. Модернизация завершается, когда большая часть населения переходит в инновационный сектор.
При работе с моделью использовались статистические методы обработки данных, методы Big Data, включая иерархическую кластеризацию. С помощью разработанного алгоритма на базе метода случайного спуска были идентифицированы параметры модели и проведена ее верификация на основе эмпирических рядов, а также проведено тестирование модели с использованием статистических данных, отражающих изменения, наблюдаемые в развитых и развивающихся странах в период происходящей в течение последних столетий модернизации. Тестирование модели продемонстрировало ее высокое качество — отклонения расчетных кривых от статистических данных, как правило, небольшие и происходят в периоды войн и экономических кризисов. Проведенный анализ статистических данных по долгосрочной демографической и экономической динамике стран мира позволил определить общие закономерности и формализовать их в виде математической модели. Модель будет использоваться с целью прогноза демографической и экономической динамики в различных странах мира.
Ключевые слова: модернизация, страны мира, долгосрочная демографическая и экономическая динамика, математическое моделирование.
Modernization as a global process: the experience of mathematical modeling
Computer Research and Modeling, 2021, v. 13, no. 4, pp. 859-873The article analyzes empirical data on the long-term demographic and economic dynamics of the countries of the world for the period from the beginning of the 19th century to the present. Population and GDP of a number of countries of the world for the period 1500–2016 were selected as indicators characterizing the long-term demographic and economic dynamics of the countries of the world. Countries were chosen in such a way that they included representatives with different levels of development (developed and developing countries), as well as countries from different regions of the world (North America, South America, Europe, Asia, Africa). A specially developed mathematical model was used for modeling and data processing. The presented model is an autonomous system of differential equations that describes the processes of socio-economic modernization, including the process of transition from an agrarian society to an industrial and post-industrial one. The model contains the idea that the process of modernization begins with the emergence of an innovative sector in a traditional society, developing on the basis of new technologies. The population is gradually moving from the traditional sector to the innovation sector. Modernization is completed when most of the population moves to the innovation sector.
Statistical methods of data processing and Big Data methods, including hierarchical clustering were used. Using the developed algorithm based on the random descent method, the parameters of the model were identified and verified on the basis of empirical series, and the model was tested using statistical data reflecting the changes observed in developed and developing countries during the period of modernization taking place over the past centuries. Testing the model has demonstrated its high quality — the deviations of the calculated curves from statistical data are usually small and occur during periods of wars and economic crises. Thus, the analysis of statistical data on the long-term demographic and economic dynamics of the countries of the world made it possible to determine general patterns and formalize them in the form of a mathematical model. The model will be used to forecast demographic and economic dynamics in different countries of the world.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"