Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1501-1513В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и разли- чия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p < 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.
Assessing the validity of clustering of panel data by Monte Carlo methods (using as example the data of the Russian regional economy)
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1501-1513The paper considers a method for studying panel data based on the use of agglomerative hierarchical clustering — grouping objects based on the similarities and differences in their features into a hierarchy of clusters nested into each other. We used 2 alternative methods for calculating Euclidean distances between objects — the distance between the values averaged over observation interval, and the distance using data for all considered years. Three alternative methods for calculating the distances between clusters were compared. In the first case, the distance between the nearest elements from two clusters is considered to be distance between these clusters, in the second — the average over pairs of elements, in the third — the distance between the most distant elements. The efficiency of using two clustering quality indices, the Dunn and Silhouette index, was studied to select the optimal number of clusters and evaluate the statistical significance of the obtained solutions. The method of assessing statistical reliability of cluster structure consisted in comparing the quality of clustering on a real sample with the quality of clustering on artificially generated samples of panel data with the same number of objects, features and lengths of time series. Generation was made from a fixed probability distribution. At the same time, simulation methods imitating Gaussian white noise and random walk were used. Calculations with the Silhouette index showed that a random walk is characterized not only by spurious regression, but also by “spurious clustering”. Clustering was considered reliable for a given number of selected clusters if the index value on the real sample turned out to be greater than the value of the 95% quantile for artificial data. A set of time series of indicators characterizing production in the regions of the Russian Federation was used as a sample of real data. For these data only Silhouette shows reliable clustering at the level p < 0.05. Calculations also showed that index values for real data are generally closer to values for random walks than for white noise, but it have significant differences from both. Since three-dimensional feature space is used, the quality of clustering was also evaluated visually. Visually, one can distinguish clusters of points located close to each other, also distinguished as clusters by the applied hierarchical clustering algorithm.
-
Многокритериальный метрический анализ данных при моделировании человеческого капитала
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1223-1245В статье описываетсявы числимаям одель человека в информационной экономике и демонстрируется многокритериальный оптимизационный подход к метрическому анализу модельных данных. Традиционный подход к идентификации и исследованию модели предполагает идентификацию модели по временным рядам и прогнозирование дальнейшей динамики ряда. Однако этот подход неприменим к моделям, некоторые важнейшие переменные которых не наблюдаютсяя вно, и известны только некоторые типичные границы или особенности генеральной совокупности. Такая ситуация часто встречается в социальных науках, что делает модели сугубо теоретическими. Чтобы избежать этого, для (неявной) идентификации и изучения таких моделей предлагается использовать метод метрического анализа данных (MMDA), основанный на построении и анализе метрических сетей Колмогорова – Шеннона, аппроксимирующих генеральную совокупность данных модельной генерации в многомерном пространстве социальных характеристик. С помощью этого метода идентифицированы коэффициенты модели и изучены особенности ее фазовых траекторий. Представленнаяв статье модель рассматривает человека как субъекта, обрабатывающего информацию, включая его информированность и когнитивные способности. Составлены пожизненные индексы человеческого капитала: креативного индивида (обобщающего когнитивные способности) и продуктивного (обобщает объем освоенной человеком информации). Поставлена задача их многокритериальной (двухкритериальной) оптимизации с учетом ожидаемой продолжительности жизни. Такой подход позволяет выявить и экономически обосновать требования к системе образования и социализации (информационному окружению) человека до достиженияим взрослого возраста. Показано, что в поставленной оптимизационной задаче возникает Парето-граница, причем ее тип зависит от уровня смертности: при высокой продолжительности жизни доминирует одно решение, в то время как для более низкой продолжительности жизни существуют различные типы Парето-границы. В частности, в случае России применим принцип Парето: значительное увеличение креативного человеческого капитала индивида возможно за счет небольшого сниженияпр одуктивного человеческого капитала (обобщение объема освоенной человеком информации). Показано, что рост продолжительности жизни делает оптимальным компетентностный подход, ориентированный на развитие когнитивных способностей, в то время как при низкой продолжительности жизни предпочтительнее знаниевый подход.
Ключевые слова: многокритериальнаяоп тимизация, метрические сети, визуализация данных, человеческое развитие, идентификациям одели, метод достижимых целей, интерактивные карты решений, человеческий капитал, метрический анализ данных.
Multicriterial metric data analysis in human capital modelling
Computer Research and Modeling, 2020, v. 12, no. 5, pp. 1223-1245The article describes a model of a human in the informational economy and demonstrates the multicriteria optimizational approach to the metric analysis of model-generated data. The traditional approach using the identification and study involves the model’s identification by time series and its further prediction. However, this is not possible when some variables are not explicitly observed and only some typical borders or population features are known, which is often the case in the social sciences, making some models pure theoretical. To avoid this problem, we propose a method of metric data analysis (MMDA) for identification and study of such models, based on the construction and analysis of the Kolmogorov – Shannon metric nets of the general population in a multidimensional space of social characteristics. Using this method, the coefficients of the model are identified and the features of its phase trajectories are studied. In this paper, we are describing human according to his role in information processing, considering his awareness and cognitive abilities. We construct two lifetime indices of human capital: creative individual (generalizing cognitive abilities) and productive (generalizing the amount of information mastered by a person) and formulate the problem of their multi-criteria (two-criteria) optimization taking into account life expectancy. This approach allows us to identify and economically justify the new requirements for the education system and the information environment of human existence. It is shown that the Pareto-frontier exists in the optimization problem, and its type depends on the mortality rates: at high life expectancy there is one dominant solution, while for lower life expectancy there are different types of Paretofrontier. In particular, the Pareto-principle applies to Russia: a significant increase in the creative human capital of an individual (summarizing his cognitive abilities) is possible due to a small decrease in the creative human capital (summarizing awareness). It is shown that the increase in life expectancy makes competence approach (focused on the development of cognitive abilities) being optimal, while for low life expectancy the knowledge approach is preferable.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"