Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Задачи и алгоритмы оптимальной кластеризации многомерных объектов по множеству разнородных показателей и их приложения в медицине
Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 673-693Работа посвящена описанию авторских формальных постановок задачи кластеризации при заданном числе кластеров, алгоритмам их решения, а также результатам применения этого инструментария в медицине.
Решение сформулированных задач точными алгоритмами реализаций даже относительно невысоких размерностей до выполнения условий оптимальности невозможно за сколько-нибудь рациональное время по причине их принадлежности к классу NP.
В связи с этим нами предложен гибридный алгоритм, сочетающий преимущества точных методов на базе кластеризации в парных расстояниях на начальном этапе с быстродействием методов решения упрощенных задач разбиения по центрам кластеров на завершающем этапе. Для развития данного направления разработан последовательный гибридный алгоритм кластеризации с использованием случайного поиска в парадигме роевого интеллекта. В статье приведено его описание и представлены результаты расчетов прикладных задач кластеризации.
Для выяснения эффективности разработанного инструментария оптимальной кластеризации многомерных объектов по множеству разнородных показателей был выполнен ряд вычислительных экспериментов с использованием массивов данных, включающих социально-демографические, клинико-анамнестические, электроэнцефалографические и психометрические данные когнитивного статуса пациентов кардиологической клиники. Получено эксперимен- тальное доказательство эффективности применения алгоритмов локального поиска в парадигме роевого интеллекта в рамках гибридного алгоритма при решении задач оптимальной кластеризации. Результаты вычислений свидетельствуют о фактическом разрешении основной проблемы применения аппарата дискретной оптимизации — ограничения доступных размерностей реализаций задач. Нами показано, что эта проблема снимается при сохранении приемлемой близости результатов кластеризации к оптимальным.
Прикладное значение полученных результатов кластеризации обусловлено также тем, что разработанный инструментарий оптимальной кластеризации дополнен оценкой стабильности сформированных кластеров, что позволяет к известным факторам (наличие стеноза или старший возраст) дополнительно выделить тех пациентов, когнитивные ресурсы которых оказываются недостаточны, чтобы преодолеть влияние операционной анестезии, вследствие чего отмечается однонаправленный эффект послеоперационного ухудшения показателей сложной зрительно-моторной реакции, внимания и памяти. Этот эффект свидетельствует о возможности дифференцированно классифицировать пациентов с использованием предлагаемого инструментария.
Ключевые слова: оптимальная кластеризация, парные расстояния, центры кластеров, гибридный алгоритм, локальный поиск, роевой интеллект.
Tasks and algorithms for optimal clustering of multidimensional objects by a variety of heterogeneous indicators and their applications in medicine
Computer Research and Modeling, 2024, v. 16, no. 3, pp. 673-693The work is devoted to the description of the author’s formal statements of the clustering problem for a given number of clusters, algorithms for their solution, as well as the results of using this toolkit in medicine.
The solution of the formulated problems by exact algorithms of implementations of even relatively low dimensions before proving optimality is impossible in a finite time due to their belonging to the NP class.
In this regard, we have proposed a hybrid algorithm that combines the advantages of precise methods based on clustering in paired distances at the initial stage with the speed of methods for solving simplified problems of splitting by cluster centers at the final stage. In the development of this direction, a sequential hybrid clustering algorithm using random search in the paradigm of swarm intelligence has been developed. The article describes it and presents the results of calculations of applied clustering problems.
To determine the effectiveness of the developed tools for optimal clustering of multidimensional objects according to a variety of heterogeneous indicators, a number of computational experiments were performed using data sets including socio-demographic, clinical anamnestic, electroencephalographic and psychometric data on the cognitive status of patients of the cardiology clinic. An experimental proof of the effectiveness of using local search algorithms in the paradigm of swarm intelligence within the framework of a hybrid algorithm for solving optimal clustering problems has been obtained.
The results of the calculations indicate the actual resolution of the main problem of using the discrete optimization apparatus — limiting the available dimensions of task implementations. We have shown that this problem is eliminated while maintaining an acceptable proximity of the clustering results to the optimal ones. The applied significance of the obtained clustering results is also due to the fact that the developed optimal clustering toolkit is supplemented by an assessment of the stability of the formed clusters, which allows for known factors (the presence of stenosis or older age) to additionally identify those patients whose cognitive resources are insufficient to overcome the influence of surgical anesthesia, as a result of which there is a unidirectional effect of postoperative deterioration of complex visual-motor reaction, attention and memory. This effect indicates the possibility of differentiating the classification of patients using the proposed tools.
-
О компьютерных экспериментах Касмана
Компьютерные исследования и моделирование, 2019, т. 11, № 3, с. 503-513В 2007 году Касман провел серию оригинальных компьютерных экспериментов с кинками уравнения синус-Гордона, движущимися вдоль искусственных последовательностей ДНК. Были рассмотрены две последовательности. Каждая состояла из двух частей, разделенных границей. Левая часть первой из последовательностей содержала повторяющиеся триплеты TTA, кодирующие лейцины, а правая часть содержала повторяющиеся триплеты CGC, кодирующие аргинины. Во второй последовательности левая часть содержала повторяющиеся триплеты CTG, кодирующие лейцины, а правая часть содержала повторяющиеся триплеты AGA, кодирующие аргинины. При моделировании движения кинка в этих последовательностях был обнаружен интересный эффект. Оказалось, что кинк, движущийся в одной из последовательностей, останавливался, не достигнув конца, а затем «отскакивал», как будто ударялся об стенку. В то же время в другой последовательности движение кинка не прекращалось в течение всего времени проведения эксперимента. В этих компьютерных экспериментах, однако, использовалась простая модель ДНК, предложенная Салерно. Она учитывает различия во взаимодействиях комплементарных оснований внутри пар, но пренебрегает различием в моментах инерции азотистых оснований и расстояниях между центрами масс оснований и сахарно-фосфатной цепочкой. Вопрос о том, сохранится ли эффект Касмана при использовании более точных моделей ДНК, до сих пор остается открытым. В настоящей работе мы исследуем эффект Касмана на основе более точной модели ДНК, которая учитывает оба эти различия. Мы получили энергетические профили последовательностей Касмана и построили траектории движения кинков, запущенных в этих последовательностях при разных начальных значениях энергии. Результаты наших исследований подтвердили существование эффекта Касмана, но только в ограниченном интервале начальных значений энергии кинков и при определенном направлении движения кинков. В других случаях этот эффект не наблюдался. Мы обсудили, какие из исследованных последовательностей энергетически были более предпочтительны для возбуждения и распространения кинков.
Ключевые слова: компьютерное моделирование, динамика ДНК, последовательности из кодонов ДНК, энергетический профиль, траектории кинков.
On the computer experiments of Kasman
Computer Research and Modeling, 2019, v. 11, no. 3, pp. 503-513Просмотров за год: 23.In 2007 Kasman conducted a series of original computer experiments with sine-Gordon kinks moving along artificial DNA sequences. Two sequences were considered. Each consisted of two parts separated by a boundary. The left part of the first sequence contained repeating TTA triplets that encode leucines, and the right part contained repeating CGC triplets that encode arginines. In the second sequence, the left part contained repeating CTG triplets encoding leucines, and the right part contained repeating AGA triplets encoding arginines. When modeling the kink movement, an interesting effect was discovered. It turned out that the kink, moving in one of the sequences, stopped without reaching the end of the sequence, and then “bounced off” as if he had hit a wall. At the same time, the kink movement in the other sequence did not stop during the entire time of the experiment. In these computer experiments, however, a simple DNA model proposed by Salerno was used. It takes into account differences in the interactions of complementary bases within pairs, but does not take into account differences in the moments of inertia of nitrogenous bases and in the distances between the centers of mass of the bases and the sugar-phosphate chain. The question of whether the Kasman effect will continue with the use of more accurate DNA models is still open. In this paper, we investigate the Kasman effect on the basis of a more accurate DNA model that takes both of these differences into account. We obtained the energy profiles of Kasman's sequences and constructed the trajectories of the motion of kinks launched in these sequences with different initial values of the energy. The results of our investigations confirmed the existence of the Kasman effect, but only in a limited interval of initial values of the kink energy and with a certain direction of the kinks movement. In other cases, this effect did not observe. We discussed which of the studied sequences were energetically preferable for the excitation and propagation of kinks.
-
Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1501-1513В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и разли- чия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p < 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.
Assessing the validity of clustering of panel data by Monte Carlo methods (using as example the data of the Russian regional economy)
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1501-1513The paper considers a method for studying panel data based on the use of agglomerative hierarchical clustering — grouping objects based on the similarities and differences in their features into a hierarchy of clusters nested into each other. We used 2 alternative methods for calculating Euclidean distances between objects — the distance between the values averaged over observation interval, and the distance using data for all considered years. Three alternative methods for calculating the distances between clusters were compared. In the first case, the distance between the nearest elements from two clusters is considered to be distance between these clusters, in the second — the average over pairs of elements, in the third — the distance between the most distant elements. The efficiency of using two clustering quality indices, the Dunn and Silhouette index, was studied to select the optimal number of clusters and evaluate the statistical significance of the obtained solutions. The method of assessing statistical reliability of cluster structure consisted in comparing the quality of clustering on a real sample with the quality of clustering on artificially generated samples of panel data with the same number of objects, features and lengths of time series. Generation was made from a fixed probability distribution. At the same time, simulation methods imitating Gaussian white noise and random walk were used. Calculations with the Silhouette index showed that a random walk is characterized not only by spurious regression, but also by “spurious clustering”. Clustering was considered reliable for a given number of selected clusters if the index value on the real sample turned out to be greater than the value of the 95% quantile for artificial data. A set of time series of indicators characterizing production in the regions of the Russian Federation was used as a sample of real data. For these data only Silhouette shows reliable clustering at the level p < 0.05. Calculations also showed that index values for real data are generally closer to values for random walks than for white noise, but it have significant differences from both. Since three-dimensional feature space is used, the quality of clustering was also evaluated visually. Visually, one can distinguish clusters of points located close to each other, also distinguished as clusters by the applied hierarchical clustering algorithm.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"