Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Методика формирования многопрограммного управления изолированным перекрестком
Компьютерные исследования и моделирование, 2021, т. 13, № 2, с. 295-303Наиболее простым и востребованным практикой методом управления светофорной сигнализацией является предрассчитанное регулирование, когда параметры работы светофорного объекта рассчитываются заранее и затем активируются согласно расписанию. В работе предложена методика формирования сигнального плана, позволяющая рассчитать программы регулирования и установить период их активности. Подготовка исходных данных для проведения расчета включает формирование временного ряда суточной интенсивности движения с интервалом 15 минут. При проведении полевых обследований возможно отсутствие части измерений интенсивности движения. Для восполнения недостающих значений предложено использование кубической сплайн-интерполяции временного ряда. Следующем шагом методики является расчет суточного набора сигнальных планов. В работе приведены зависимости, позволяющие рассчитать оптимальную длительность цикла регулирования и разрешающих движение фаз и установить период их активности. Существующие системы управления движением имеют ограничения на количество используемых программ регулирования. Для сокращения количества сигнальных планов и определения периода их активности используется кластеризация методом $k$-средних в пространстве длительности транспортных фаз. В новом суточном сигнальном плане длительность фаз определяется координатами полученных центров кластеров, а периоды активности устанавливаются элементами, вошедшими в кластер. Апробация на числовом примере показала, что при количестве кластеров 10 отклонение оптимальной длительности фаз от центров кластеров не превышает 2 с. Для проведения оценки эффективности разработанной методики на примере реального пересечения со светофорным регулированием. На основе натурных обследований схемы движения и транспортного спроса разработана микроскопическая модель для программы SUMO (Simulation of Urban Mobility). Оценка эффективности произведена на основе потерь транспорта, оцениваемых затратами времени на передвижение. Имитационное моделирование многопрограммного управления сигналами светофора показало снижение времени задержки (в сравнении с однопрограммным управлением) на 20 %. Предложенная методика позволяет автоматизировать процесс расчета суточных сигнальных планов и установки времени их активности.
Ключевые слова: светофорное регулирование, многопрограммное управление, временной ряд, кластеризация, $k$-средние.
Method of forming multiprogram control of an isolated intersection
Computer Research and Modeling, 2021, v. 13, no. 2, pp. 295-303The simplest and most desirable method of traffic signal control is precalculated regulation, when the parameters of the traffic light object operation are calculated in advance and activated in accordance to a schedule. This work proposes a method of forming a signal plan that allows one to calculate the control programs and set the period of their activity. Preparation of initial data for the calculation includes the formation of a time series of daily traffic intensity with an interval of 15 minutes. When carrying out field studies, it is possible that part of the traffic intensity measurements is missing. To fill up the missing traffic intensity measurements, the spline interpolation method is used. The next step of the method is to calculate the daily set of signal plans. The work presents the interdependencies, which allow one to calculate the optimal durations of the control cycle and the permitting phase movement and to set the period of their activity. The present movement control systems have a limit on the number of control programs. To reduce the signal plans' number and to determine their activity period, the clusterization using the $k$-means method in the transport phase space is introduced In the new daily signal plan, the duration of the phases is determined by the coordinates of the received cluster centers, and the activity periods are set by the elements included in the cluster. Testing on a numerical illustration showed that, when the number of clusters is 10, the deviation of the optimal phase duration from the cluster centers does not exceed 2 seconds. To evaluate the effectiveness of the developed methodology, a real intersection with traffic light regulation was considered as an example. Based on field studies of traffic patterns and traffic demand, a microscopic model for the SUMO (Simulation of Urban Mobility) program was developed. The efficiency assessment is based on the transport losses estimated by the time spent on movement. Simulation modeling of the multiprogram control of traffic lights showed a 20% reduction in the delay time at the traffic light object in comparison with the single-program control. The proposed method allows automation of the process of calculating daily signal plans and setting the time of their activity.
-
Задачи и алгоритмы оптимальной кластеризации многомерных объектов по множеству разнородных показателей и их приложения в медицине
Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 673-693Работа посвящена описанию авторских формальных постановок задачи кластеризации при заданном числе кластеров, алгоритмам их решения, а также результатам применения этого инструментария в медицине.
Решение сформулированных задач точными алгоритмами реализаций даже относительно невысоких размерностей до выполнения условий оптимальности невозможно за сколько-нибудь рациональное время по причине их принадлежности к классу NP.
В связи с этим нами предложен гибридный алгоритм, сочетающий преимущества точных методов на базе кластеризации в парных расстояниях на начальном этапе с быстродействием методов решения упрощенных задач разбиения по центрам кластеров на завершающем этапе. Для развития данного направления разработан последовательный гибридный алгоритм кластеризации с использованием случайного поиска в парадигме роевого интеллекта. В статье приведено его описание и представлены результаты расчетов прикладных задач кластеризации.
Для выяснения эффективности разработанного инструментария оптимальной кластеризации многомерных объектов по множеству разнородных показателей был выполнен ряд вычислительных экспериментов с использованием массивов данных, включающих социально-демографические, клинико-анамнестические, электроэнцефалографические и психометрические данные когнитивного статуса пациентов кардиологической клиники. Получено эксперимен- тальное доказательство эффективности применения алгоритмов локального поиска в парадигме роевого интеллекта в рамках гибридного алгоритма при решении задач оптимальной кластеризации. Результаты вычислений свидетельствуют о фактическом разрешении основной проблемы применения аппарата дискретной оптимизации — ограничения доступных размерностей реализаций задач. Нами показано, что эта проблема снимается при сохранении приемлемой близости результатов кластеризации к оптимальным.
Прикладное значение полученных результатов кластеризации обусловлено также тем, что разработанный инструментарий оптимальной кластеризации дополнен оценкой стабильности сформированных кластеров, что позволяет к известным факторам (наличие стеноза или старший возраст) дополнительно выделить тех пациентов, когнитивные ресурсы которых оказываются недостаточны, чтобы преодолеть влияние операционной анестезии, вследствие чего отмечается однонаправленный эффект послеоперационного ухудшения показателей сложной зрительно-моторной реакции, внимания и памяти. Этот эффект свидетельствует о возможности дифференцированно классифицировать пациентов с использованием предлагаемого инструментария.
Ключевые слова: оптимальная кластеризация, парные расстояния, центры кластеров, гибридный алгоритм, локальный поиск, роевой интеллект.
Tasks and algorithms for optimal clustering of multidimensional objects by a variety of heterogeneous indicators and their applications in medicine
Computer Research and Modeling, 2024, v. 16, no. 3, pp. 673-693The work is devoted to the description of the author’s formal statements of the clustering problem for a given number of clusters, algorithms for their solution, as well as the results of using this toolkit in medicine.
The solution of the formulated problems by exact algorithms of implementations of even relatively low dimensions before proving optimality is impossible in a finite time due to their belonging to the NP class.
In this regard, we have proposed a hybrid algorithm that combines the advantages of precise methods based on clustering in paired distances at the initial stage with the speed of methods for solving simplified problems of splitting by cluster centers at the final stage. In the development of this direction, a sequential hybrid clustering algorithm using random search in the paradigm of swarm intelligence has been developed. The article describes it and presents the results of calculations of applied clustering problems.
To determine the effectiveness of the developed tools for optimal clustering of multidimensional objects according to a variety of heterogeneous indicators, a number of computational experiments were performed using data sets including socio-demographic, clinical anamnestic, electroencephalographic and psychometric data on the cognitive status of patients of the cardiology clinic. An experimental proof of the effectiveness of using local search algorithms in the paradigm of swarm intelligence within the framework of a hybrid algorithm for solving optimal clustering problems has been obtained.
The results of the calculations indicate the actual resolution of the main problem of using the discrete optimization apparatus — limiting the available dimensions of task implementations. We have shown that this problem is eliminated while maintaining an acceptable proximity of the clustering results to the optimal ones. The applied significance of the obtained clustering results is also due to the fact that the developed optimal clustering toolkit is supplemented by an assessment of the stability of the formed clusters, which allows for known factors (the presence of stenosis or older age) to additionally identify those patients whose cognitive resources are insufficient to overcome the influence of surgical anesthesia, as a result of which there is a unidirectional effect of postoperative deterioration of complex visual-motor reaction, attention and memory. This effect indicates the possibility of differentiating the classification of patients using the proposed tools.
-
Моделирование процессов миграции населения: методы и инструменты (обзор)
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1205-1232Миграция оказывает существенное влияние на формирование демографической структуры населения территорий, состояние региональных и локальных рынков труда. Быстрое изменение численности трудоспособного населения той или иной территории из-за миграционных процессов приводит к дисбалансу спроса и предложения на рынках труда, изменению демографической структуры населения. Миграция во многом является отражением социально-экономических процессов, происходящих в обществе. Поэтому становятся актуальными вопросы, связанные с изучением факторов миграции, направления, интенсивности и структуры миграционных потоков, прогнозированием их величины.
Для анализа, прогнозирования миграционных процессов и оценки их последствий часто используется математический инструментарий, позволяющий с нужной точностью моделировать миграционные процессы для различных территорий на основе имеющихся статистических данных. В последние годы как в России, так и в зарубежных странах появилось много научных работ, посвященных моделированию внутренних и внешних миграционных потоков с использованием математических методов. Следовательно, для формирования целостной картины основных тенденций и направлений исследований в этой области возникла необходимость в систематизации наиболее часто используемых методов и инструментов моделирования.
В представленном обзоре на основе анализа современных отечественных и зарубежных публикаций представлены основные подходы к моделированию миграции, основные составляющие методологии моделирования миграционных процессов — этапы, методы, модели и классификация моделей. Обзор содержит два раздела: методы моделирования миграционных процессов и модели миграции. В первом разделе приведено описание основных методов, используемых в процессе разработки моделей — эконометрических, клеточных автоматов, системно-динамических, вероятностных, балансовых, оптимизации и кластерного анализа. Во втором — выделены и описаны наиболее часто встречающиеся классы моделей — регрессионные, агент-ориентированные, имитационные, оптимизационные, веро- ятностные, балансовые, динамические и комбинированные. Рассмотрены особенности, преимущества и недостатки различных типов моделей миграционных процессов, проведен их сравнительный анализ и разработаны общие рекомендации по выбору математического инструментария для моделирования.
Ключевые слова: миграция, миграционные процессы, модели миграции, методы, регрессионные модели, клеточные автоматы, агент-ориентированные модели, балансовые модели, динамические модели.
Migration processes modelling: methods and tools (overview)
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1205-1232Migration has a significant impact on the shaping of the demographic structure of the territories population, the state of regional and local labour markets. As a rule, rapid change in the working-age population of any territory due to migration processes results in an imbalance in supply and demand on labour markets and a change in the demographic structure of the population. Migration is also to a large extent a reflection of socio-economic processes taking place in the society. Hence, the issues related to the study of migration factors, the direction, intensity and structure of migration flows, and the prediction of their magnitude are becoming topical issues these days.
Mathematical tools are often used to analyze, predict migration processes and assess their consequences, allowing for essentially accurate modelling of migration processes for different territories on the basis of the available statistical data. In recent years, quite a number of scientific papers on modelling internal and external migration flows using mathematical methods have appeared both in Russia and in foreign countries in recent years. Consequently, there has been a need to systematize the currently most commonly used methods and tools applied in migration modelling to form a coherent picture of the main trends and research directions in this field.
The presented review considers the main approaches to migration modelling and the main components of migration modelling methodology, i. e. stages, methods, models and model classification. Their comparative analysis was also conducted and general recommendations on the choice of mathematical tools for modelling were developed. The review contains two sections: migration modelling methods and migration models. The first section describes the main methods used in the model development process — econometric, cellular automata, system-dynamic, probabilistic, balance, optimization and cluster analysis. Based on the analysis of modern domestic and foreign publications on migration, the most common classes of models — regression, agent-based, simulation, optimization, probabilistic, balance, dynamic and combined — were identified and described. The features, advantages and disadvantages of different types of migration process models were considered.
-
Анализ прогностических свойств тремора земной поверхности с помощью разложения Хуанга
Компьютерные исследования и моделирование, 2024, т. 16, № 4, с. 939-958Предлагается метод анализа тремора земной поверхности, измеряемого средствами космической геодезии с целью выделения прогностических эффектов активизации сейсмичности. Метод иллюстрируется на примере совместного анализа совокупности синхронных временных рядов ежесуточных вертикальных смещений земной поверхности на Японских островах для интервала времени 2009–2023 гг. Анализ основан на разбиении исходных данных (1047 временных рядов) на блоки (кластеры станций) и последовательном применении метода главных компонент. Разбиение сети станций на кластеры производится методом k-средних из критерия максимума псевдо-статистики. Для Японии оптимальное число кластеров было выбрано равным 15. К временным рядам главных компонент от блоков станций применяется метод разложения Хуанга на последовательность независимых эмпирических мод колебаний (Empirical Mode Decomposition, EMD). Для обеспечения устойчивости оценок волновых форм EMD-разложения производилось усреднение 1000 независимых аддитивных реализаций белого шума ограниченной амплитуды. С помощью разложения Холецкого ковариационной матрицы волновых форм первых трех EMD-компонент в скользящем временном окне определены индикаторы аномального поведения тремора. Путем вычисления корреляционной функции между средними индикаторами аномального поведения и выде- лившейся сейсмической энергии в окрестности Японских островов установлено, что всплески меры ано- мального поведения тремора предшествуют выбросам сейсмической энергии. Целью статьи является про- яснение распространенных гипотез о том, что движения земной коры, регистрируемые средствами космической геодезии, могут содержать прогностическую информацию. То, что смещения, регистрируемые геодезическими методами, реагируют на последствия землетрясений, широко известно и многократно демонстрировалось. Но выделение геодезических эффектов, предвещающих сейсмические события, является значительно более сложной задачей. В нашей статье мы предлагаем один из методов обнаружения прогностических эффектов в данных космической геодезии.
Ключевые слова: тремор земной поверхности, кластерный анализ, метод главных компонент, разложение Хуанга, мера аномального поведения временных рядов, корреляционная функция.
Analysis of predictive properties of ground tremor using Huang decomposition
Computer Research and Modeling, 2024, v. 16, no. 4, pp. 939-958A method is proposed for analyzing the tremor of the earth’s surface, measured by means of space geodesy, in order to highlight the prognostic effects of seismicity activation. The method is illustrated by the example of a joint analysis of a set of synchronous time series of daily vertical displacements of the earth’s surface on the Japanese Islands for the time interval 2009–2023. The analysis is based on dividing the source data (1047 time series) into blocks (clusters of stations) and sequentially applying the principal component method. The station network is divided into clusters using the K-means method from the maximum pseudo-F-statistics criterion, and for Japan the optimal number of clusters was chosen to be 15. The Huang decomposition method into a sequence of independent empirical oscillation modes (EMD — Empirical Mode Decomposition) is applied to the time series of principal components from station blocks. To provide the stability of estimates of the waveforms of the EMD decomposition, averaging of 1000 independent additive realizations of white noise of limited amplitude was performed. Using the Cholesky decomposition of the covariance matrix of the waveforms of the first three EMD components in a sliding time window, indicators of abnormal tremor behavior were determined. By calculating the correlation function between the average indicators of anomalous behavior and the released seismic energy in the vicinity of the Japanese Islands, it was established that bursts in the measure of anomalous tremor behavior precede emissions of seismic energy. The purpose of the article is to clarify common hypotheses that movements of the earth’s crust recorded by space geodesy may contain predictive information. That displacements recorded by geodetic methods respond to the effects of earthquakes is widely known and has been demonstrated many times. But isolating geodetic effects that predict seismic events is much more challenging. In our paper, we propose one method for detecting predictive effects in space geodesy data.
-
Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.
Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.
Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.
Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.
Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.
Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.
Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.
Ключевые слова: тематическое моделирование, иерархическая агломеративная группировка, онтология, общий словарь, контентная аутентичность.
Semantic structuring of text documents based on patterns of natural language entities
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1185-1197The technology of creating patterns from natural language words (concepts) based on text data in the bag of words model is considered. Patterns are used to reduce the dimension of the original space in the description of documents and search for semantically related words by topic. The process of dimensionality reduction is implemented through the formation of patterns of latent features. The variety of structures of document relations is investigated in order to divide them into themes in the latent space.
It is considered that a given set of documents (objects) is divided into two non-overlapping classes, for the analysis of which it is necessary to use a common dictionary. The belonging of words to a common vocabulary is initially unknown. Class objects are considered as opposition to each other. Quantitative parameters of oppositionality are determined through the values of the stability of each feature and generalized assessments of objects according to non-overlapping sets of features.
To calculate the stability, the feature values are divided into non-intersecting intervals, the optimal boundaries of which are determined by a special criterion. The maximum stability is achieved under the condition that the boundaries of each interval contain values of one of the two classes.
The composition of features in sets (patterns of words) is formed from a sequence ordered by stability values. The process of formation of patterns and latent features based on them is implemented according to the rules of hierarchical agglomerative grouping.
A set of latent features is used for cluster analysis of documents using metric grouping algorithms. The analysis applies the coefficient of content authenticity based on the data on the belonging of documents to classes. The coefficient is a numerical characteristic of the dominance of class representatives in groups.
To divide documents into topics, it is proposed to use the union of groups in relation to their centers. As patterns for each topic, a sequence of words ordered by frequency of occurrence from a common dictionary is considered.
The results of a computational experiment on collections of abstracts of scientific dissertations are presented. Sequences of words from the general dictionary on 4 topics are formed.
-
Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1501-1513В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и разли- чия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p < 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.
Assessing the validity of clustering of panel data by Monte Carlo methods (using as example the data of the Russian regional economy)
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1501-1513The paper considers a method for studying panel data based on the use of agglomerative hierarchical clustering — grouping objects based on the similarities and differences in their features into a hierarchy of clusters nested into each other. We used 2 alternative methods for calculating Euclidean distances between objects — the distance between the values averaged over observation interval, and the distance using data for all considered years. Three alternative methods for calculating the distances between clusters were compared. In the first case, the distance between the nearest elements from two clusters is considered to be distance between these clusters, in the second — the average over pairs of elements, in the third — the distance between the most distant elements. The efficiency of using two clustering quality indices, the Dunn and Silhouette index, was studied to select the optimal number of clusters and evaluate the statistical significance of the obtained solutions. The method of assessing statistical reliability of cluster structure consisted in comparing the quality of clustering on a real sample with the quality of clustering on artificially generated samples of panel data with the same number of objects, features and lengths of time series. Generation was made from a fixed probability distribution. At the same time, simulation methods imitating Gaussian white noise and random walk were used. Calculations with the Silhouette index showed that a random walk is characterized not only by spurious regression, but also by “spurious clustering”. Clustering was considered reliable for a given number of selected clusters if the index value on the real sample turned out to be greater than the value of the 95% quantile for artificial data. A set of time series of indicators characterizing production in the regions of the Russian Federation was used as a sample of real data. For these data only Silhouette shows reliable clustering at the level p < 0.05. Calculations also showed that index values for real data are generally closer to values for random walks than for white noise, but it have significant differences from both. Since three-dimensional feature space is used, the quality of clustering was also evaluated visually. Visually, one can distinguish clusters of points located close to each other, also distinguished as clusters by the applied hierarchical clustering algorithm.
-
Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1515-1528Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытымк одомB igARTM и TopicNet.
Ключевые слова: автоматическая обработка текстов, обучение без учителя, тематическое моделирование, аддитивная регуляризация тематических моделей, EM-алгоритм, PLSA, LDA, ARTM, BigARTM, TopicNet.
Additive regularizarion of topic models with fast text vectorizartion
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1515-1528The probabilistic topic model of a text document collection finds two matrices: a matrix of conditional probabilities of topics in documents and a matrix of conditional probabilities of words in topics. Each document is represented by a multiset of words also called the “bag of words”, thus assuming that the order of words is not important for revealing the latent topics of the document. Under this assumption, the problem is reduced to a low-rank non-negative matrix factorization governed by likelihood maximization. In general, this problem is ill-posed having an infinite set of solutions. In order to regularize the solution, a weighted sum of optimization criteria is added to the log-likelihood. When modeling large text collections, storing the first matrix seems to be impractical, since its size is proportional to the number of documents in the collection. At the same time, the topical vector representation (embedding) of documents is necessary for solving many text analysis tasks, such as information retrieval, clustering, classification, and summarization of texts. In practice, the topical embedding is calculated for a document “on-the-fly”, which may require dozens of iterations over all the words of the document. In this paper, we propose a way to calculate a topical embedding quickly, by one pass over document words. For this, an additional constraint is introduced into the model in the form of an equation, which calculates the first matrix from the second one in linear time. Although formally this constraint is not an optimization criterion, in fact it plays the role of a regularizer and can be used in combination with other regularizers within the additive regularization framework ARTM. Experiments on three text collections have shown that the proposed method improves the model in terms of sparseness, difference, logLift and coherence measures of topic quality. The open source libraries BigARTM and TopicNet were used for the experiments.
-
Решение логистической задачи топливоснабжения распределенной региональной системы теплоснабжения
Компьютерные исследования и моделирование, 2012, т. 4, № 2, с. 451-470Предложена методика решения задачи логистики топливоснабжения региона, включающая в себя взаимосвязанные задачи маршрутизации, кластеризации, оптимального распределения ресурсов и управления запасами. Расчеты проведены на примере системы топливоснабжения Удмуртской Республики.
Ключевые слова: логистика, топливоснабжение, маршрутизация, кластеризация, оптимизация, управление запасами, генетический алгоритм.
The solution of the logistics task of fuel supply for the regional distributed heat supply system
Computer Research and Modeling, 2012, v. 4, no. 2, pp. 451-470Просмотров за год: 1. Цитирований: 6 (РИНЦ).The technique for solving the logistic task of fuel supply in the region, including the interconnected tasks of routing, clustering, optimal distribution of resources and stock control is proposed. The calculations have been carried out on the example of fuel supply system of the Udmurt Republic.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"