Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Методика работы с унаследованными информационными системами
Компьютерные исследования и моделирование, 2014, т. 6, № 2, с. 331-344В данной статье предлагается методика работы с унаследованными информационными системами. В процессе профессиональной деятельности специалистам в области машиностроения приходится сталкиваться с тем, что компьютерные приложения, с помощью которых было спроектировано изделие, устаревают значительно быстрее, чем само изделие. В тоже время переход на современные информационные системы может быть затруднен по ряду причин. В таком случае говорят о проблеме унаследованных систем. Она возникает тогда, когда жизненный цикл изделия намного превосходит время жизни программных систем, с помощью которых это изделие создавалось. Для решения этой проблемы в настоящей статье автором предлагается методика, на основе которой был разработан программный комплекс.
Methodic of legacy information systems handling
Computer Research and Modeling, 2014, v. 6, no. 2, pp. 331-344Просмотров за год: 3. Цитирований: 1 (РИНЦ).In this article a method of legacy information systems handling is offered. During professional activities of specialists of various domains of industry they face with the problem that computer software that was involved in product development stage becomes obsolete much quickly than the product itself. At the same time switch to any modern software might be not possible due to various reasons. This problem is known as "legacy system" problem. It appears when product lifecycle is sufficiently longer than that of software systems that were used for product creation. In this article author offers an approach for solving this problem along with computer application based on this approach.
-
Подходы к кластеризации групп социальной сети
Компьютерные исследования и моделирование, 2015, т. 7, № 5, с. 1127-1139Исследование посвящено проблеме использования социальных сетей в качестве инструмента в противозаконной деятельности и источника информации, способного нести опасность обществу. В статье приводится структура мультиагентной системы, под управлением которой может осуществляться кластеризация групп социальной сети по критериям, однозначно определяющим группу в качестве деструктивной. Приведен алгоритм, который используют агенты системы для кластеризации.
Approaches to a social network groups clustering
Computer Research and Modeling, 2015, v. 7, no. 5, pp. 1127-1139Просмотров за год: 8. Цитирований: 2 (РИНЦ).The research is devoted to the problem of the use of social networks as a tool of the illegal activity and as a source of information that could be dangerous to society. The article presents the structure of the multiagent system with which a social network groups could be clustered according to the criteria uniquely defines a group as a destructive. The agents’ of the system clustering algorithm is described.
-
Подходы к интеграции облачных инфраструктур
Компьютерные исследования и моделирование, 2016, т. 8, № 3, с. 583-590Одним из важных направлений развития облачных технологий на данный момент является разработка методов интеграции различных облачных инфраструктур. В научной сфере актуальность данного направления обусловлена в первую очередь часто возникающей проблемой нехватки собственных вычислительных ресурсов и необходимостью привлечения дополнительных мощностей. В данной статье рассматриваются существующие подходы к интеграции облачных инфраструктур между собой: федеративные объединения и так называемая модель cloud bursting. Федеративное объединение на базе облачной платформы OpenNebula строится по схеме «одна главная зона и несколько управляемых зон», где под «зоной» понимается каждая из инфраструктур федерации. В подобной интеграции все облачные инфраструктуры имеют единую базу пользователей, а управление всей федерацией осуществляется централизованно с главной зоны. Данная схема наиболее подходит для объединения территориально разнесенных облачных инфраструктур, например подразделений одной организации, но не подходит для объединения инфраструктур разных организаций ввиду присущего данному подходу централизованного управления, а в случае использования организациями разных облачных платформ — невозможна. Модель федеративного объединения, реализованная в европейской грид-инфраструктуре «EGI Federated Cloud», хотя и позволяет интегрировать между собой облачные инфраструктуры на базе разных платформ, однако для интеграции подобным способом требуются установка и настройка существенного дополнительного набора специфических для данной конкретной европейской грид-инфраструктуры сервисов, что лишает данный подход универсальности. Модель cloud bursting лишена ограничений перечисленных федеративных подходов, однако в случае OpenNebula, на базе которой построена облачная инфраструктура Лаборатории информационных технологий Объединенного института ядерных исследований (ЛИТ ОИЯИ), такая модель была реализована только для интеграции с фиксированным набором коммерческих поставщиков облачных ресурсов. С учетом этого, а также на основании полученного авторами статьи опыта как по объединению облачных инфраструктур представляемых ими организаций, так и интеграции с европейским облаком EGI Federated Cloud командой ЛИТ ОИЯИ был разработан драйвер для объединения облаков партнерских организаций по модели cloud bursting на базе платформы OpenNebula как с аналогичным, так и с облаками на базе OpenStack. В статье описывается архитектура этого драйвера, используемые в нем технологии и протоколы, а также опыт его применения для объединения облачных инфраструктур организаций из стран-участниц ОИЯИ.
Ключевые слова: облачные технологии, интеграция, EGI Federated Cloud, OpenNebula, OpenStack, cloud bursting.
Approaches to cloud infrastructures integration
Computer Research and Modeling, 2016, v. 8, no. 3, pp. 583-590Просмотров за год: 6. Цитирований: 11 (РИНЦ).One of the important direction of cloud technologies development nowadays is a creation of methods for integration of various cloud infrastructures. An actuality of such direction in academic field is caused by a frequent lack of own computing resources and a necessity to attract additional ones. This article is dedicated to existing approaches to cloud infrastructures integration with each other: federations and so called ‘cloud bursting’. A ‘federation’ in terms of OpenNebula cloud platform is built on a ‘one master zone and several slave ones’ schema. A term ‘zone’ means a separate cloud infrastructure in the federation. All zones in such kind of integration have a common database of users and the whole federation is managed via master zone only. Such approach is most suitable for a case when cloud infrastructures of geographically distributed branches of a single organization need to be integrated. But due to its high centralization it's not appropriate when one needs to join cloud infrastructures of different organizations. Moreover it's not acceptable at all in case of clouds based on different software platforms. A model of federative integration implemented in EGI Federated Cloud allows to connect clouds based on different software platforms but it requires a deployment of sufficient amount of additional services which are specific for EGI Federated Cloud only. It makes such approach is one-purpose and uncommon one. A ‘cloud bursting’ model has no limitations listed above but in case of OpenNebula platform what the Laboratory of Information Technologies of Joint Institute for Nuclear Research (LIT JINR) cloud infrastructure is based on such model was implemented for an integration with a certain set of commercial cloud resources providers. Taking into account an article authors’ experience in joining clouds of organizations they represent as well as with EGI Federation Cloud a ‘cloud bursting’ driver was developed by LIT JINR cloud team for OpenNebula-based clouds integration with each other as well as with OpenStack-based ones. The driver's architecture, technologies and protocols it relies on and an experience of its usage are described in the article.
-
Применение генетических алгоритмов для управления организационными системами при возникновении нештатных ситуаций
Компьютерные исследования и моделирование, 2019, т. 11, № 3, с. 533-556Оптимальное управление системой топливоснабжения заключается в выборе варианта развития энергетики, при котором достигается наиболее эффективное и надежное топливо- и энергоснабжение потребителей. В рамках реализации программы перевода распределенной системы теплоснабжения Удмуртской Республики на возобновляемые источники энергии была разработана информационно-аналитическая система управления топливоснабжением региона альтернативными видами топлива. В работе представлена математическая модель оптимального управления логистической системой топливоснабжения, состоящая из трех взаимосвязанных уровней: пункты накопления сырья, пункты производства топлива и пункты потребления. С целью повышения эффективности функционирования системы топливоснабжения региона информационно-аналитическая система расширена функционалом оперативного реагирования при возникновении нештатных ситуаций. Возникновение нештатных ситуаций на любом из уровней требует перестроения управления всей системой. Разработаны модели и алгоритмы оптимального управления в случае возникновения нештатных ситуаций, связанных с выходом из строя производственных звеньев логистической системы: пунктов накопления сырья и пунктов производства топлива. В математических моделях оптимального управления в качестве целевого критерия учитываются расходы, связанные с функционированием логистической системы при возникновении нештатной ситуации. Реализация разработанных алгоритмов основана на применении генетических алгоритмов оптимизации, что позволяет достичь наилучших результатов по времени работы алгоритма и точности полученного решения. Разработанные модели и алгоритмы интегрированы в информационно-аналитическую систему и позволяют оперативно реагировать на возникновение чрезвычайных ситуаций в системе топливоснабжения Удмуртской Республики путем применения альтернативных видов топлива.
Ключевые слова: генетический алгоритм, оптимальное управление, топливоснабжение, математическое моделирование, альтернативная энергетика, нештатная ситуация.
The application of genetic algorithms for organizational systems’ management in case of emergency
Computer Research and Modeling, 2019, v. 11, no. 3, pp. 533-556Просмотров за год: 31.Optimal management of fuel supply system boils down to choosing an energy development strategy which provides consumers with the most efficient and reliable fuel and energy supply. As a part of the program on switching the heat supply distributed management system of the Udmurt Republic to renewable energy sources, an “Information-analytical system of regional alternative fuel supply management” was developed. The paper presents the mathematical model of optimal management of fuel supply logistic system consisting of three interconnected levels: raw material accumulation points, fuel preparation points and fuel consumption points, which are heat sources. In order to increase effective the performance of regional fuel supply system a modification of information-analytical system and extension of its set of functions using the methods of quick responding when emergency occurs are required. Emergencies which occur on any one of these levels demand the management of the whole system to reconfigure. The paper demonstrates models and algorithms of optimal management in case of emergency involving break down of such production links of logistic system as raw material accumulation points and fuel preparation points. In mathematical models, the target criterion is minimization of costs associated with the functioning of logistic system in case of emergency. The implementation of the developed algorithms is based on the usage of genetic optimization algorithms, which made it possible to obtain a more accurate solution in less time. The developed models and algorithms are integrated into the information-analytical system that enables to provide effective management of alternative fuel supply of the Udmurt Republic in case of emergency.
-
Стохастическая модель числа сторонников политического лидера в цифровом публичном пространстве
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 979-997В представленной статье мы исследуем процесс изменения рейтинга одобрения политического лидера под влиянием процессов, протекающих в цифровом публичном пространстве. Драйвером указанных изменений служит взаимодействие пользователей онлайн-площадок (информационных и новостных ресурсов, блогов, социальных сетей), в результате которого они могут обмениваться друг с другом мнениями и формулировать свою позицию в отношении политика. Помимо межличностного взаимодействия мы рассмотрим такие факторы, как информационное воздействие, выражающееся в создании информационного потока, имеющего заданную мощность и тональность (положительную или отрицательную, в контексте влияния на имидж политического лидера), а также наличие группы агентов (лидеров мнений), оказывающих поддержку политику или же, наоборот, негативно влияющих на его представление в медийном пространстве.
Математической основой представленного исследования является модель Кирмана, имеющая истоки в биологии и первоначально нашедшая свое применение в экономике. В рамках даннойм одели считается, что каждый участник находится в одном из двух возможных состояний, а также задается скачкообразный марковский процесс, описывающий переходы между этими состояниями. Для рассматриваемой нами задачи данными состояниями являются 0 или 1, в зависимости от того, является ли конкретный агент сторонником политика и одобряет его деятельность или же нет. Пользуясь аппаратом теории марковских процессов, мы находим его диффузионное приближение, известное как процесс Якоби. При помощи спектрального разложения для инфинитезимального оператора данного процесса мы имеем возможность найти аналитическое представление для плотности переходных вероятностей.
Анализируя вероятности, полученные указанным образом, можно оценить влияние отдельных факторов модели: мощность и тональность новостных сообщений, доступных для пользователей онлайн-пространства и релевантных для задач формирования рейтинга, а также численности сторонников или противников политика. Далее, пользуясь найденными собственными функциями и значениями, мы выводим выражения для оценки условных математических ожиданий рейтинга политика, что может служить основой для построения прогнозов, важных для задач формирования стратегии представления политического лидера в онлайн-среде.
Ключевые слова: рейтинг одобрения, политическое лидерство, информационное воздействие, стадное поведение, марковскийпр оцесс.
Stochastic model of voter dynamics in online media
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 979-997In the present article we explore the process of changing the level of approval of a political leader under the influence of the processes taking place in online platforms (social networks, forums, etc.). The driver of these changes is the interaction of users, through which they can exchange opinions with each other and formulate their position in relation to the political leader. In addition to interpersonal interaction, we will consider such factors as the information impact, expressed in the creation of an information flow with a given power and polarity (positive or negative, in the context of influencing the image of a political leader), as well as the presence of a group of agents (opinion leaders), supporting the leader, or, conversely, negatively affecting its representation in the media space.
The mathematical basis of the presented research is the Kirman model, which has its roots in biology and initially found its application in economics. Within the framework of this model it is considered that each user is in one of the two possible states, and a Markov jump process describing transitions between these states is given. For the problem under consideration, these states are 0 or 1, depending on whether a particular agent is a supporter of a political leader or not. For further research, we find its diffusional approximation, known as the Jacoby process. With the help of spectral decomposition for the infinitesimal operator of this process we have an opportunity to find an analytical representation for the transition probability density.
Analyzing the probabilities obtained in this way, we can assess the influence of individual factors of the model: the power and direction of the information flow, available to online users and relevant to the tasks of rating formation, as well as the number of supporters or opponents of the politician. Next, using the found eigenfunctions and eigenvalues, we derive expressions for the evaluation of conditional mathematical expectations of a politician’s rating, which can serve as a basis for building forecasts that are important for the formation of a strategy of representing a political leader in the online environment.
-
Объединение агентного подхода и подхода общего равновесия для анализа влияния теневого сектора на российскую экономику
Компьютерные исследования и моделирование, 2020, т. 12, № 3, с. 669-684В предлагаемой публикации используется объединение оптимизационного подхода общего равновесия, позволяющего объяснить поведение спроса, предложения и цен в экономике с несколькими взаимодействующими рынками, и мультиагентного имитационного подхода, формализующего поведение домашних хозяйств. Интегрирование двух этих подходов рассматривается на примере динамической стохастической модели, включающей теневой, неформальный и сектор домашних хозяйств, производящих блага для собственного потребления. Синтеза гентного подхода и подхода общего равновесия осуществляется с помощью компьютерной реализации рекурсивной обратной связи между микроагентами и макросредой. В предлагаемом исследовании для реализации взаимодействия микроагентов с макросредой используется один из самых популярных подходов, аппроксимирующий распределение доходов индивидуальных агентов дискретным и конечным набором моментов. Особенностью алгоритма реализации рекурсивной обратной связи является получение индивидуальных поведенческих функций микроагентов при их взаимодействии с макросредой, имитационное моделирование с помощью метода Монте-Карло индивидуальных доходов всей совокупности агентов с последующей агрегацией доходов. Параметры модели оцениваются с помощью байесовской эконометрики на статистических данных экономики России. Исходя изс равнения функций правдоподобия, сделан вывод, что исследуемая модель с неоднородными агентами более адекватно описывает эмпирические данные российской экономики. Поведение функций импульсного отклика основных переменных модели свидетельствует об антициклическом характере политики, связанной с наличием теневых секторов экономики (включая неформальный сектор и сектор производства домохозяйств) во время рецессий. Важным фактором является также то, что индивидуальность в поведении агентов способствует повышению эластичности предложения труда в исследуемых секторах экономики. Научной новизной исследования является объединение мультиагентного подхода и подхода общего равновесия для моделирования макроэкономических процессов на региональном и национальном уровне. Перспективы дальнейших исследований могут быть связаны с моделированием и компьютерной реализацией большего числа источников гетерогенности, позволяющих, в частности, описать поведение неоднородных групп агентов в секторах, связанных с производством товаров и услуг.
Ключевые слова: гетерогенные агенты, ожидания, идиосинкратические шоки, агрегированная неопределенность, теневая экономика, неформальный сектор экономики, легальный сектор экономики, сектор домашних хозяйств, байесовский метод, общее экономическое равновесие.
Combining the agent approach and the general equilibrium approach to analyze the influence of the shadow sector on the Russian economy
Computer Research and Modeling, 2020, v. 12, no. 3, pp. 669-684This article discusses the influence of the shadow, informal and household sectors on the dynamics of a stochastic model with heterogeneous (heterogeneous) agents. The study uses the integration of the general equilibrium approach to explain the behavior of demand, supply and prices in an economy with several interacting markets, and a multi-agent approach. The analyzed model describes an economy with aggregated uncertainty and with an infinite number of heterogeneous agents (households). The source of heterogeneity is the idiosyncratic income shocks of agents in the legal and shadow sectors of the economy. In the analysis, an algorithm is used to approximate the dynamics of the distribution function of the capital stocks of individual agents — the dynamics of its first and second moments. The synthesis of the agent approach and the general equilibrium approach is carried out using computer implementation of the recursive feedback between microagents and macroenvironment. The behavior of the impulse response functions of the main variables of the model confirms the positive influence of the shadow economy (below a certain limit) on minimizing the rate of decline in economic indicators during recessions, especially for developing economies. The scientific novelty of the study is the combination of a multi-agent approach and a general equilibrium approach for modeling macroeconomic processes at the regional and national levels. Further research prospects may be associated with the use of more detailed general equilibrium models, which allow, in particular, to describe the behavior of heterogeneous groups of agents in the entrepreneurial sector of the economy.
-
Анализ эффективности методов машинного обучения в задаче распознавания жестов на основе данных электромиографических сигналов
Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 175-194При разработке систем человеко-машинных интерфейсов актуальной является задача распознавания жестов. Для выявления наиболее эффективного метода распознавания жестов был проведен анализ различных методов машинного обучения, используемых для классификации движений на основе электромиографических сигналов мышц. Были рассмотрены такие методы, как наивный байесовский классификатор (НБК), дерево решений, случайный лес, градиентный бустинг, метод опорных векторов, метод $k$-ближайших соседей, а также ансамбли методов (НБК и дерево решений, НБК и градиентный бустинг, градиентный бустинг и дерево решений). В качестве метода получения информации о жестах была выбрана электромиография. Такое решение не требует расположения руки в поле зрения камеры и может быть использовано для распознавания движений пальцев рук. Для проверки эффективности выбранных методов распознавания жестов было разработано устройство регистрации электромиографического сигнала мышц предплечья, которое включает в себя три электрода и ЭМГ-датчик, соединенный с микрокон- троллером и блоком питания. В качестве жестов были выбраны: сжатие кулака, знак «большой палец», знак «Виктория», сжатие указательного пальца и взмах рукой справа налево. Оценка эффективности методов классификации проводилась на основе значений доли правильных ответов, точности, полноты, а также среднего значения времени работы классификатора. Данные параметры были рассчитаны для трех вариантов расположения электромиографических электродов на предплечье. По результатам тести- рования, наиболее эффективными методами являются метод $k$-ближайших соседей, случайный лес и ансамбль НБК и градиентного бустинга, средняя точность которого для трех положений электродов составила 81,55 %. Также было определено положение электродов, при котором методы машинного обучения достигают максимального значения точности распознавания. При таком положении один из дифференциальных электродов располагается на месте пересечения глубокого сгибателя пальцев и длинного сгибателя большого пальца, второй — над поверхностным сгибателем пальцев
Ключевые слова: машинное обучение, распознавание жестов, человеко-машинный интерфейс, электромиография, ансамбль методов, градиентный бустинг, метод $k$-ближайших соседей, дерево решений.
Analysis of the effectiveness of machine learning methods in the problem of gesture recognition based on the data of electromyographic signals
Computer Research and Modeling, 2021, v. 13, no. 1, pp. 175-194Gesture recognition is an urgent challenge in developing systems of human-machine interfaces. We analyzed machine learning methods for gesture classification based on electromyographic muscle signals to identify the most effective one. Methods such as the naive Bayesian classifier (NBC), logistic regression, decision tree, random forest, gradient boosting, support vector machine (SVM), $k$-nearest neighbor algorithm, and ensembles (NBC and decision tree, NBC and gradient boosting, gradient boosting and decision tree) were considered. Electromyography (EMG) was chosen as a method of obtaining information about gestures. This solution does not require the location of the hand in the field of view of the camera and can be used to recognize finger movements. To test the effectiveness of the selected methods of gesture recognition, a device was developed for recording the EMG signal, which includes three electrodes and an EMG sensor connected to the microcontroller and the power supply. The following gestures were chosen: clenched fist, “thumb up”, “Victory”, squeezing an index finger and waving a hand from right to left. Accuracy, precision, recall and execution time were used to evaluate the effectiveness of classifiers. These parameters were calculated for three options for the location of EMG electrodes on the forearm. According to the test results, the most effective methods are $k$-nearest neighbors’ algorithm, random forest and the ensemble of NBC and gradient boosting, the average accuracy of ensemble for three electrode positions was 81.55%. The position of the electrodes was also determined at which machine learning methods achieve the maximum accuracy. In this position, one of the differential electrodes is located at the intersection of the flexor digitorum profundus and flexor pollicis longus, the second — above the flexor digitorum superficialis.
-
A framework for medical image segmentation based on measuring diversity of pixel’s intensity utilizing interval approach
Компьютерные исследования и моделирование, 2021, т. 13, № 5, с. 1059-1066Segmentation of medical image is one of the most challenging tasks in analysis of medical image. It classifies the organs pixels or lesions from medical images background like MRI or CT scans, that is to provide critical information about the human organ’s volumes and shapes. In scientific imaging field, medical imaging is considered one of the most important topics due to the rapid and continuing progress in computerized medical image visualization, advances in analysis approaches and computer-aided diagnosis. Digital image processing becomes more important in healthcare field due to the growing use of direct digital imaging systems for medical diagnostics. Due to medical imaging techniques, approaches of image processing are now applicable in medicine. Generally, various transformations will be needed to extract image data. Also, a digital image can be considered an approximation of a real situation includes some uncertainty derived from the constraints on the process of vision. Since information on the level of uncertainty will influence an expert’s attitude. To address this challenge, we propose novel framework involving interval concept that consider a good tool for dealing with the uncertainty, In the proposed approach, the medical images are transformed into interval valued representation approach and entropies are defined for an image object and background. Then we determine a threshold for lower-bound image and for upper-bound image, and then calculate the mean value for the final output results. To demonstrate the effectiveness of the proposed framework, we evaluate it by using synthetic image and its ground truth. Experimental results showed how performance of the segmentation-based entropy threshold can be enhanced using proposed approach to overcome ambiguity.
A framework for medical image segmentation based on measuring diversity of pixel’s intensity utilizing interval approach
Computer Research and Modeling, 2021, v. 13, no. 5, pp. 1059-1066Segmentation of medical image is one of the most challenging tasks in analysis of medical image. It classifies the organs pixels or lesions from medical images background like MRI or CT scans, that is to provide critical information about the human organ’s volumes and shapes. In scientific imaging field, medical imaging is considered one of the most important topics due to the rapid and continuing progress in computerized medical image visualization, advances in analysis approaches and computer-aided diagnosis. Digital image processing becomes more important in healthcare field due to the growing use of direct digital imaging systems for medical diagnostics. Due to medical imaging techniques, approaches of image processing are now applicable in medicine. Generally, various transformations will be needed to extract image data. Also, a digital image can be considered an approximation of a real situation includes some uncertainty derived from the constraints on the process of vision. Since information on the level of uncertainty will influence an expert’s attitude. To address this challenge, we propose novel framework involving interval concept that consider a good tool for dealing with the uncertainty, In the proposed approach, the medical images are transformed into interval valued representation approach and entropies are defined for an image object and background. Then we determine a threshold for lower-bound image and for upper-bound image, and then calculate the mean value for the final output results. To demonstrate the effectiveness of the proposed framework, we evaluate it by using synthetic image and its ground truth. Experimental results showed how performance of the segmentation-based entropy threshold can be enhanced using proposed approach to overcome ambiguity.
-
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
Extracting knowledge from text messages: overview and state-of-the-art
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1291-1315In general, solving the information explosion problem can be delegated to systems for automatic processing of digital data. These systems are intended for recognizing, sorting, meaningfully processing and presenting data in formats readable and interpretable by humans. The creation of intelligent knowledge extraction systems that handle unstructured data would be a natural solution in this area. At the same time, the evident progress in these tasks for structured data contrasts with the limited success of unstructured data processing, and, in particular, document processing. Currently, this research area is undergoing active development and investigation. The present paper is a systematic survey on both Russian and international publications that are dedicated to the leading trend in automatic text data processing: Text Mining (TM). We cover the main tasks and notions of TM, as well as its place in the current AI landscape. Furthermore, we analyze the complications that arise during the processing of texts written in natural language (NLP) which are weakly structured and often provide ambiguous linguistic information. We describe the stages of text data preparation, cleaning, and selecting features which, alongside the data obtained via morphological, syntactic, and semantic analysis, constitute the input for the TM process. This process can be represented as mapping a set of text documents to «knowledge». Using the case of stock trading, we demonstrate the formalization of the problem of making a trade decision based on a set of analytical recommendations. Examples of such mappings are methods of Information Retrieval (IR), text summarization, sentiment analysis, document classification and clustering, etc. The common point of all tasks and techniques of TM is the selection of word forms and their derivatives used to recognize content in NL symbol sequences. Considering IR as an example, we examine classic types of search, such as searching for word forms, phrases, patterns and concepts. Additionally, we consider the augmentation of patterns with syntactic and semantic information. Next, we provide a general description of all NLP instruments: morphological, syntactic, semantic and pragmatic analysis. Finally, we end the paper with a comparative analysis of modern TM tools which can be helpful for selecting a suitable TM platform based on the user’s needs and skills.
-
Аналоги условия относительной сильной выпуклости для относительно гладких задач и адаптивные методы градиентного типа
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 413-432Данная статья посвящена повышению скоростных гарантий численных методов градиентного типа для относительно гладких и относительно липшицевых задач минимизации в случае дополнительных предположений о некоторых аналогах сильной выпуклости целевой функции. Рассматриваются два класса задач: выпуклые задачи с условием относительного функционального роста, а также задачи (вообще говоря, невыпуклые) с аналогом условия градиентного доминирования Поляка – Лоясиевича относительно дивергенции Брэгмана. Для первого типа задач мы предлагаем две схемы рестартов методов градиентного типа и обосновываем теоретические оценки сходимости двух алгоритмов с адаптивно подбираемыми параметрами, соответствующими относительной гладкости или липшицевости целевой функции. Первый из этих алгоритмов проще в части критерия выхода из итерации, но для него близкие к оптимальным вычислительные гарантии обоснованы только на классе относительно липшицевых задач. Процедура рестартов другого алгоритма, в свою очередь, позволила получить более универсальные теоретические результаты. Доказана близкая к оптимальной оценка сложности на классе выпуклых относительно липшицевых задач с условием функционального роста, а для класса относительно гладких задач с условием функционального роста получены гарантии линейной скорости сходимости. На классе задач с предложенным аналогом условия градиентного доминирования относительно дивергенции Брэгмана были получены оценки качества выдаваемого решения с использованием адаптивно подбираемых параметров. Также мы приводим результаты некоторых вычислительных экспериментов, иллюстрирующих работу методов для второго исследуемого в настоящей статье подхода. В качестве примеров мы рассмотрели линейную обратную задачу Пуассона (минимизация дивергенции Кульбака – Лейблера), ее регуляризованный вариант, позволяющий гарантировать относительную сильную выпуклость целевой функции, а также некоторый пример относительно гладкой и относительно сильно выпуклой задачи. В частности, с помощью расчетов показано, что относительно сильно выпуклая функция может не удовлетворять введенному относительному варианту условия градиентного доминирования.
Ключевые слова: относительная сильная выпуклость, относительная гладкость, относительный функциональный рост, относительное условие градиентного доминирования, адаптивный метод, рестарты.
Analogues of the relative strong convexity condition for relatively smooth problems and adaptive gradient-type methods
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 413-432This paper is devoted to some variants of improving the convergence rate guarantees of the gradient-type algorithms for relatively smooth and relatively Lipschitz-continuous problems in the case of additional information about some analogues of the strong convexity of the objective function. We consider two classes of problems, namely, convex problems with a relative functional growth condition, and problems (generally, non-convex) with an analogue of the Polyak – Lojasiewicz gradient dominance condition with respect to Bregman divergence. For the first type of problems, we propose two restart schemes for the gradient type methods and justify theoretical estimates of the convergence of two algorithms with adaptively chosen parameters corresponding to the relative smoothness or Lipschitz property of the objective function. The first of these algorithms is simpler in terms of the stopping criterion from the iteration, but for this algorithm, the near-optimal computational guarantees are justified only on the class of relatively Lipschitz-continuous problems. The restart procedure of another algorithm, in its turn, allowed us to obtain more universal theoretical results. We proved a near-optimal estimate of the complexity on the class of convex relatively Lipschitz continuous problems with a functional growth condition. We also obtained linear convergence rate guarantees on the class of relatively smooth problems with a functional growth condition. For a class of problems with an analogue of the gradient dominance condition with respect to the Bregman divergence, estimates of the quality of the output solution were obtained using adaptively selected parameters. We also present the results of some computational experiments illustrating the performance of the methods for the second approach at the conclusion of the paper. As examples, we considered a linear inverse Poisson problem (minimizing the Kullback – Leibler divergence), its regularized version which allows guaranteeing a relative strong convexity of the objective function, as well as an example of a relatively smooth and relatively strongly convex problem. In particular, calculations show that a relatively strongly convex function may not satisfy the relative variant of the gradient dominance condition.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"