Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Применение ансамбля нейросетей и методов статистической механики для предсказания связывания пептида с главным комплексом гистосовместимости
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1383-1395Белки главного комплекса гистосовместимости (ГКГС) играют ключевую роль в работе адаптивной иммунной системы, и определение связывающихся с ними пептидов — важный шаг в разработке вакцин и понимании механизмов аутоиммунных заболеваний. На сегодняшний день существует ряд методов для предсказания связывания определенной аллели ГКГС с пептидом. Одним из лучших таких методов является NetMHCpan-4.0, основанный на ансамбле искусственных нейронных сетей. В данной работе представлена методология качественного улучшения архитектуры нейронной сети, лежащей в основе NetMHCpan-4.0. Предлагаемый метод использует технику построения ансамбля и добавляет в качестве входных данных оценку модели Поттса, взятой из статистической механики и являющейся обобщением модели Изинга. В общем случае модельо тражает взаимодействие спинов в кристаллической решетке. Применительно к задаче белок-пептидного взаимодействия вместо спинов используются типы аминокислот, находящихся в кармане связывания. В предлагаемом методе модель Поттса используется для более всестороннего представления физической природы взаимодействия полипептидных цепей, входящих в состав комплекса. Для оценки взаимодействия комплекса «ГКГС + пептид» нами используется двумерная модель Поттса с 20 состояниями (соответствующими основным аминокислотам). Решая обратную задачу с использованием данных об экспериментально подтвержденных взаимодействующих парах, мы получаем значения параметров модели Поттса, которые затем применяем для оценки новой пары «ГКГС + пептид», и дополняем этим значением входные данные нейронной сети. Такой подход, в сочетании с техникой построения ансамбля, позволяет улучшитьт очность предсказания, по метрике положительной прогностической значимости (PPV), по сравнению с базовой моделью.
Ключевые слова: главный комплекс гистосовместимости, аффинностьсв язывания, нейронная сеть, машинное обучение, модельП оттса.
Ensemble building and statistical mechanics methods for MHC-peptide binding prediction
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1383-1395The proteins of the Major Histocompatibility Complex (MHC) play a key role in the functioning of the adaptive immune system, and the identification of peptides that bind to them is an important step in the development of vaccines and understanding the mechanisms of autoimmune diseases. Today, there are a number of methods for predicting the binding of a particular MHC allele to a peptide. One of the best such methods is NetMHCpan-4.0, which is based on an ensemble of artificial neural networks. This paper presents a methodology for qualitatively improving the underlying neural network underlying NetMHCpan-4.0. The proposed method uses the ensemble construction technique and adds as input an estimate of the Potts model taken from static mechanics, which is a generalization of the Ising model. In the general case, the model reflects the interaction of spins in the crystal lattice. Within the framework of the proposed method, the model is used to better represent the physical nature of the interaction of proteins included in the complex. To assess the interaction of the MHC + peptide complex, we use a two-dimensional Potts model with 20 states (corresponding to basic amino acids). Solving the inverse problem using data on experimentally confirmed interacting pairs, we obtain the values of the parameters of the Potts model, which we then use to evaluate a new pair of MHC + peptide, and supplement this value with the input data of the neural network. This approach, combined with the ensemble construction technique, allows for improved prediction accuracy, in terms of the positive predictive value (PPV) metric, compared to the baseline model.
-
Методологический подход к моделированию и прогнозированию воздействия пространственной неоднородности процессов распространения COVID-19 на экономическое развитие регионов России
Компьютерные исследования и моделирование, 2021, т. 13, № 3, с. 629-648Статья посвящена исследованию социально-экономических последствий от вирусных эпидемий в условиях неоднородности экономического развития территориальных систем. Актуальность исследования обусловлена необходимостью поиска оперативных механизмов государственного управления и стабилизации неблагоприятной эпидемио-логической ситуации с учетом пространственной неоднородности распространения COVID-19, сопровождающейся концентрацией инфекции в крупных мегаполисах и на территориях с высокой экономической активностью.
Целью работы является разработка комплексного подхода к исследованию пространственной неоднородности распространения коронавирусной инфекции с точки зрения экономических последствий пандемии в регионах России. В работе особое внимание уделяется моделированию последствий ухудшающейся эпидемиологической ситуации на динамике экономического развития региональных систем, определению полюсов роста распространения коронавирусной инфекции, пространственных кластеров и зон их влияния с оценкой межтерриториальных взаимосвязей. Особенностью разработанного подхода является пространственная кластеризация региональных систем по уровню заболеваемости COVID-19, проведенная с использованием глобального и локальных индексов пространственной автокорреляции, различных матриц пространственных весов и матрицы взаимовлияния Л.Анселина на основе статистической информации Росстата. В результате проведенного исследования были выявлены пространственный кластер, отличающийся высоким уровнем инфицирования COVID-19 с сильной зоной влияния и устойчивыми межрегиональными взаимосвязями с окружающими регионами, а также сформировавшиеся полюса роста, которые являются потенциальными полюсами дальнейшего распространения коронавирусной инфекции. Проведенный в работе регрессионный анализ с использованием панельных данных позволил сформировать модель для сценарного прогнозирования последствий от распространения коронавирусной инфекции и принятия управленческих решений органами государственной власти.
В работе выявлено, что увеличение числа заболевших коронавирусной инфекцией влияет на сокращение среднесписочной численности работников, снижение средней начисленной заработной платы. Предложенный подход к моделированию последствий COVID-19 может быть расширен за счет использования полученных результатов исследования при проектировании агент-ориентированной моделей, которые позволят оценить средне- и долгосрочные социально-экономические последствия пандемии с точки зрения особенностей поведения различных групп населения. Проведение компьютерных экспериментов позволит воспроизвести социально-демографическая структуру населения и оценить различные ограничительные меры в регионах России и сформировать пространственные приоритеты поддержки населения и бизнеса в условиях пандемии. На основе предлагаемого методологического подхода может быть разработана агент-ориентированная модель в виде программного комплекса, предназначенного для системы поддержки принятия решений оперативным штабам, центрам мониторинга эпидемиологической ситуации, органам государственного управления на федеральном и региональном уровнях.
Ключевые слова: пространственная неоднородность, пространственная автокорреляция, кластеризация, локальный индекс Морана, межрегиональные взаимосвязи, коронавирусная инфекция, пространственно-временное моделирование, панельные данные, региональные системы.
Methodological approach to modeling and forecasting the impact of the spatial heterogeneity of the COVID-19 spread on the economic development of Russian regions
Computer Research and Modeling, 2021, v. 13, no. 3, pp. 629-648The article deals with the development of a methodological approach to forecasting and modeling the socioeconomic consequences of viral epidemics in conditions of heterogeneous economic development of territorial systems. The relevance of the research stems from the need for rapid mechanisms of public management and stabilization of adverse epidemiological situation, taking into account the spatial heterogeneity of the spread of COVID-19, accompanied by a concentration of infection in large metropolitan areas and territories with high economic activity. The aim of the work is to substantiate a methodology to assess the spatial heterogeneity of the spread of coronavirus infection, find poles of its growth, emerging spatial clusters and zones of their influence with the assessment of inter-territorial relationships, as well as simulate the effects of worsening epidemiological situation on the dynamics of economic development of regional systems. The peculiarity of the developed approach is the spatial clustering of regional systems by the level of COVID-19 incidence, conducted using global and local spatial autocorrelation indices, various spatial weight matrices, and L.Anselin mutual influence matrix based on the statistical information of the Russian Federal State Statistics Service. The study revealed a spatial cluster characterized by high levels of infection with COVID-19 with a strong zone of influence and stable interregional relationships with surrounding regions, as well as formed growth poles which are potential poles of further spread of coronavirus infection. Regression analysis using panel data not only confirmed the impact of COVID-19 incidence on the average number of employees in enterprises, the level of average monthly nominal wages, but also allowed to form a model for scenario prediction of the consequences of the spread of coronavirus infection. The results of this study can be used to form mechanisms to contain the coronavirus infection and stabilize socio-economic at macroeconomic and regional level and restore the economy of territorial systems, depending on the depth of the spread of infection and the level of economic damage caused.
-
Тензорные методы для сильно выпуклых сильно вогнутых седловых задач и сильно монотонных вариационных неравенств
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 357-376В данной статье предлагаются методы оптимизации высокого порядка (тензорные методы) для решения двух типов седловых задач. Первый тип — это классическая мин-макс-постановка для поиска седловой точки функционала. Второй тип — это поиск стационарной точки функционала седловой задачи путем минимизации нормы градиента этого функционала. Очевидно, что стационарная точка не всегда совпадает с точкой оптимума функции. Однако необходимость в решении подобного типа задач может возникать в случае, если присутствуют линейные ограничения. В данном случае из решения задачи поиска стационарной точки двойственного функционала можно восстановить решение задачи поиска оптимума прямого функционала. В обоих типах задач какие-либо ограничения на область определения целевого функционала отсутствуют. Также мы предполагаем, что целевой функционал является $\mu$-сильно выпуклыми $\mu$-сильно вогнутым, а также что выполняется условие Липшица для его $p$-й производной.
Для задач типа «мин-макс» мы предлагаем два алгоритма. Так как мы рассматриваем сильно выпуклую и сильно вогнутую задачу, первый алгоритмиспо льзует существующий тензорный метод для решения выпуклых вогнутых седловых задач и ускоряет его с помощью техники рестартов. Таким образом удается добиться линейной скорости сходимости. Используя дополнительные предположения о выполнении условий Липшица для первой и второй производных целевого функционала, можно дополнительно ускорить полученный метод. Для этого можно «переключиться» на другой существующий метод для решения подобных задач в зоне его квадратичной локальной сходимости. Так мы получаем второй алгоритм, обладающий глобальной линейной сходимостью и локальной квадратичной сходимостью. Наконец, для решения задач второго типа существует определенная методология для тензорных методов в выпуклой оптимизации. Суть ее заключается в применении специальной «обертки» вокруг оптимального метода высокого порядка. Причем для этого условие сильной выпуклости не является необходимым. Достаточно лишь правильным образом регуляризовать целевой функционал, сделав его таким образом сильно выпуклым и сильно вогнутым. В нашей работе мы переносим эту методологию на выпукло-вогнутые функционалы и используем данную «обертку» на предлагаемом выше алгоритме с глобальной линейной сходимостью и локальной квадратичной сходимостью. Так как седловая задача является частным случаем монотонного вариационного неравенства, предлагаемые методы также подойдут для поиска решения сильно монотонных вариационных неравенств.
Ключевые слова: вариационное неравенство, седловая задача, гладкость высокого порядка, тензорные методы, минимизация нормы градиента.
Tensor methods for strongly convex strongly concave saddle point problems and strongly monotone variational inequalities
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 357-376In this paper we propose high-order (tensor) methods for two types of saddle point problems. Firstly, we consider the classic min-max saddle point problem. Secondly, we consider the search for a stationary point of the saddle point problem objective by its gradient norm minimization. Obviously, the stationary point does not always coincide with the optimal point. However, if we have a linear optimization problem with linear constraints, the algorithm for gradient norm minimization becomes useful. In this case we can reconstruct the solution of the optimization problem of a primal function from the solution of gradient norm minimization of dual function. In this paper we consider both types of problems with no constraints. Additionally, we assume that the objective function is $\mu$-strongly convex by the first argument, $\mu$-strongly concave by the second argument, and that the $p$-th derivative of the objective is Lipschitz-continous.
For min-max problems we propose two algorithms. Since we consider strongly convex a strongly concave problem, the first algorithm uses the existing tensor method for regular convex concave saddle point problems and accelerates it with the restarts technique. The complexity of such an algorithm is linear. If we additionally assume that our objective is first and second order Lipschitz, we can improve its performance even more. To do this, we can switch to another existing algorithm in its area of quadratic convergence. Thus, we get the second algorithm, which has a global linear convergence rate and a local quadratic convergence rate.
Finally, in convex optimization there exists a special methodology to solve gradient norm minimization problems by tensor methods. Its main idea is to use existing (near-)optimal algorithms inside a special framework. I want to emphasize that inside this framework we do not necessarily need the assumptions of strong convexity, because we can regularize the convex objective in a special way to make it strongly convex. In our article we transfer this framework on convex-concave objective functions and use it with our aforementioned algorithm with a global linear convergence and a local quadratic convergence rate.
Since the saddle point problem is a particular case of the monotone variation inequality problem, the proposed methods will also work in solving strongly monotone variational inequality problems.
-
Методика расчета обледенения воздушных судов в широком диапазоне климатических и скоростных параметров. Применение в рамках норм летной годности НЛГ-25
Компьютерные исследования и моделирование, 2023, т. 15, № 4, с. 957-978Сертификация самолетов транспортной категории для эксплуатации в условияхо бледенения в России ранее проводилась в рамках требований приложения С к «Авиационным правилам» (АП-25). Во введенном в действие с 2023 года, взамен АП-25, документе «Нормы летной годности» (НЛГ-25) добавлено и приложение О. Отличительной особенностью приложения О является необходимость проведения расчетов в условиях большой водности и с крупными каплями воды (500 мкм и более). При таких параметрах дисперсного потока определяющими становятся такие физические процессы, как срыв и разбрызгивание пленки воды при попадании в нее крупных капель. Поток дисперсной среды в такиху словиях является существенно полидисперсным. В данной работе описываются модификации методики расчета обледенения самолетов IceVision, реализованной на базе программного комплекса FlowVision, необходимые для проведения расчетов обледенения самолетов в рамках приложения О.
Главное отличие методики IceVision от известных подходов заключается в использовании технологии Volume of fluid (VOF — объем жидкости в ячейке) для отслеживания изменения формы льда. Внешнее обтекание самолета рассчитывается одновременно с нарастанием льда и его прогревом. Лед присутствует в расчетной области явно, в нем решается уравнение теплопереноса. В отличие от лагранжевых подходов, в IceVision эйлерова расчетная сетка не перестраивается полностью. Изменение объема льда сопровождается только модификацией ячеек сетки, через которые проходит контактная поверхность.
В версии IceVision 2.0 реализован учет срыва водяной пленки, а также отскока и разбрызгивания падающих капель на поверхности самолета и льда. Диаметр вторичных капель рассчитывается с использованием известных эмпирических корреляций. Скорость течения пленки воды по поверхности определяется с учетом действия аэродинамических сил, силы тяжести, градиента гидростатического давления и силы поверхностного натяжения. Результатом учета поверхностного натяжения является эффект поперечного стягивания пленки, приводящий к образованию потоков воды в форме ручейков и ледяных отложений в виде гребнеобразных наростов. На поверхности льда выполняется балансовое соотношение, учитывающее энергию падающих капель, теплообмен между льдом и воздухом, теплоту кристаллизации, испарения, сублимации и конденсации. В работе приводятся результаты решения тестовых и модельных расчетных задач, демонстрирующие эффективность методики IceVision и достоверность полученных результатов.
Methodology of aircraft icing calculation in a wide range of climate and speed parameters. Applicability within the NLG-25 airworthiness standards
Computer Research and Modeling, 2023, v. 15, no. 4, pp. 957-978Certifying a transport airplane for the flights under icing conditions in Russia was carried out within the framework of the requirements of Annex С to the AP-25 Aviation Rules. In force since 2023 to replace AP-25 the new Russian certification document “Airworthiness Standards” (NLG-25) proposes the introduction of Appendix O. A feature of Appendix O is the need to carry out calculations in conditions of high liquid water content and with large water drops (500 microns or more). With such parameters of the dispersed flow, such physical processes as the disruption and splashing of a water film when large drops enter it become decisive. The flow of a dispersed medium under such conditions is essentially polydisperse. This paper describes the modifications of the IceVision technique implemented on the basis of the FlowVision software package for the ice accretion calculations within the framework of Appendix O.
The main difference between the IceVision method and the known approaches is the use of the Volume of fluid (VOF) technology to the shape of ice changes tracking. The external flow around the aircraft is calculated simultaneously with the growth of ice and its heating. Ice is explicitly incorporated in the computational domain; the heat transfer equation is solved in it. Unlike the Lagrangian approaches, the Euler computational grid is not completely rebuilt in the IceVision technique: only the cells containing the contact surface are changed.
The IceVision 2.0 version accounts for stripping the film, as well as bouncing and splashing of falling drops at the surfaces of the aircraft and ice. The diameter of secondary droplets is calculated using known empirical correlations. The speed of the water film flow over the surface is determined taking into account the action of aerodynamic forces, gravity, hydrostatic pressure gradient and surface tension force. The result of taking into account surface tension is the effect of contraction of the film, which leads to the formation of water flows in the form of rivulets and ice deposits in the form of comb-like growths. An energy balance relation is fulfilled on the ice surface that takes into account the energy of falling drops, heat exchange between ice and air, the heat of crystallization, evaporation, sublimation and condensation. The paper presents the results of solving benchmark and model problems, demonstrating the effectiveness of the IceVision technique and the reliability of the obtained results.
-
Биоматематическая система методов описания нуклеиновых кислот
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 417-434Статья посвящена применению методов математического анализа, поиска паттернов и изучения состава нуклеотидов в последовательностях ДНК на геномном уровне. Изложены новые методы математической биологии, которые позволили обнаружить и отобразить скрытую упорядоченность генетических нуклеотидных последовательностей, находящихся в клетках живых организмов. Исследования основаны на работах по алгебраической биологии доктора физико-математических наук С. В. Петухова, которым впервые были введены и обоснованы новые алгебры и гиперкомплексные числовые системы, описывающие генетические явления. В данной работе описана новая фаза развития матричных методов в генетике для исследования свойств нуклеотидных последовательностей (и их физико-химических параметров), построенная на принципах конечной геометрии. Целью исследования является демонстрация возможностей новых алгоритмов и обсуждение обнаруженных свойств генетических молекул ДНК и РНК. Исследование включает три этапа: параметризация, масштабирование и визуализация. Параметризация — определение учитываемых параметров, которые основаны на структурных и физико-химических свойствах нуклеотидов как элементарных составных частей генома. Масштабирование играет роль «фокусировки» и позволяет исследовать генетические структуры в различных масштабах. Визуализация включает выбор осей координатной системы и способа визуального отображения. Представленные в работе алгоритмы выдвигаются на роль расширенного инструментария для развития научно-исследовательского программного обеспечения анализа длинных нуклеотидных последовательностей с возможностью отображения геномов в параметрических пространствах различной размерности. Одним из значимых результатов исследования является то, что были получены новые биологически интерпретируемые критерии классификации геномов различных живых организмов для выявления межвидовых взаимосвязей. Новая концепция позволяет визуально и численно оценить вариативность физико-химических параметров нуклеотидных последовательностей. Эта концепция также позволяет обосновать связь параметров молекул ДНК и РНК с фрактальными геометрическими мозаиками, обнаруживает упорядоченность и симметрии полинуклеотидов и их помехоустойчивость. Полученные результаты стали обоснованием для введения новых научных терминов: «генометрия» как методология вычислительных стратегий и «генометрика» как конкретные параметры того или иного генома или нуклеотидной последовательности. В связи с результатами исследования затронуты вопросы биосемиотики и уровни иерархичности организации живой материи.
Ключевые слова: генетические алгоритмы, вариативность, многомерный анализ данных, физико-химические параметры нуклеиновых кислот, конечная геометрия.
Biomathematical system of the nucleic acids description
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 417-434The article is devoted to the application of various methods of mathematical analysis, search for patterns and studying the composition of nucleotides in DNA sequences at the genomic level. New methods of mathematical biology that made it possible to detect and visualize the hidden ordering of genetic nucleotide sequences located in the chromosomes of cells of living organisms described. The research was based on the work on algebraic biology of the doctor of physical and mathematical sciences S. V. Petukhov, who first introduced and justified new algebras and hypercomplex numerical systems describing genetic phenomena. This paper describes a new phase in the development of matrix methods in genetics for studying the properties of nucleotide sequences (and their physicochemical parameters), built on the principles of finite geometry. The aim of the study is to demonstrate the capabilities of new algorithms and discuss the discovered properties of genetic DNA and RNA molecules. The study includes three stages: parameterization, scaling, and visualization. Parametrization is the determination of the parameters taken into account, which are based on the structural and physicochemical properties of nucleotides as elementary components of the genome. Scaling plays the role of “focusing” and allows you to explore genetic structures at various scales. Visualization includes the selection of the axes of the coordinate system and the method of visual display. The algorithms presented in this work are put forward as a new toolkit for the development of research software for the analysis of long nucleotide sequences with the ability to display genomes in parametric spaces of various dimensions. One of the significant results of the study is that new criteria were obtained for the classification of the genomes of various living organisms to identify interspecific relationships. The new concept allows visually and numerically assessing the variability of the physicochemical parameters of nucleotide sequences. This concept also allows one to substantiate the relationship between the parameters of DNA and RNA molecules with fractal geometric mosaics, reveals the ordering and symmetry of polynucleotides, as well as their noise immunity. The results obtained justified the introduction of new terms: “genometry” as a methodology of computational strategies and “genometrica” as specific parameters of a particular genome or nucleotide sequence. In connection with the results obtained, biosemiotics and hierarchical levels of organization of living matter are raised.
-
Методика сравнения эффективности методов компьютерной массовой оценки
Компьютерные исследования и моделирование, 2015, т. 7, № 1, с. 185-196Одним из направлений построения компьютеризированной массовой оценки (КМО) объектов недвижимости является учет местоположения объекта. При учете местоположения объекта с использованием пространственных авторегрессионных моделей структура модели (тип пространственной автокорреляции, выбор числа «ближайших» соседей) не всегда может быть определена однозначно до ее построения. Кроме того, на практике имеются ситуации, когда более эффективными являются методы, учитывающие другой тип зависимости цены объекта от его местоположения. В связи с этим в рамках исследования эффективности применения методов оценки, использующих пространственные методы, важными вопросами являются:
– области эффективности применения методов различной структуры;
– чувствительность методов, использующих пространственные модели, относительно выбора типа пространственной модели и числа ближайших соседей.
В статье проведен сравнительный анализ оценки эффективности методов КМО объектов недвижимости, использующих информацию о местоположении объекта, приведены результаты апробации, выделены области эффективного применения рассматриваемых методов.
Ключевые слова: компьютерная массовая оценка объектов недвижимости, пространственные авторегрессионные модели, центр влияния, имитационная модель, чувствительность методов.
Comparing the effectiveness of computer mass appraisal methods
Computer Research and Modeling, 2015, v. 7, no. 1, pp. 185-196Просмотров за год: 2.Location-based models — one of areas of CAMA (computer-assisted mass apriasal) building. When taking into account the location of the object using spatial autoregressive models structure of models (type of spatial autocorrelation, choice of “nearest neighbors”) cannot always be determined before its construction. Moreover, in practice there are situations where more efficient methods are taking into account different rates depending on the type of the object from its location. In this regard there are important issues in spatial methods area:
– fields of methods efficacy;
– sensitivity of the methods on the choice of the type of spatial model and on the selected number of nearest neighbors.
This article presents a methodology for assessing the effectiveness of computer evaluation of real estate objects. There are results of approbation on methods based on location information of the objects.
-
Новый метод стилеметрии на основе статистики числительных
Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 837-850Предложен новый метод статистического анализа текстов. Исследовано распределение частот различных первых значащих цифр в числительных англоязычных текстов. Учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно. Предварительно из текста удаляются случайно попавшие в него числительные, не отражающие авторский замысел (номера страниц, маркеры списков, идиоматические выражения, устойчивые обороты речи и тому подобное). Обнаружено, что для сборных текстов разного авторства частоты первых значащих цифр приближенно соответствуют известному закону Бенфорда, но с резким преобладанием встречаемости единицы. В связных авторских текстах возникают характерные отклонения от закона Бенфорда; показано, что эти отклонения являются статистически устойчивыми и значимыми авторскими особенностями, позволяющими при определенных условиях ответить на вопрос об авторстве и различить тексты разных авторов. Требуется, чтобы текст был достаточно длинным (не менее чем порядка 200 кБ). Распределение первых значащих цифр конца ряда $\{1, 2, \ldots, 8, 9\}$ подвержено сильным флуктуациям и не показательно для нашей цели. Цель теоретического обоснования найденной эмпирической закономерности в работе не ставится, но продемонстрировано ее практическое использование для атрибуции текстов. Предлагаемый подход и сделанные выводы подкреплены примерами компьютерного анализа художественных текстов У. М. Теккерея, М. Твена, Р. Л. Стивенсона, Дж.Джойса, сестер Бронте, Дж.Остин. На основе разработанной методологии рассмотрены проблемы авторства текста, ранее приписывавшегося Л.Ф. Бауму (результат согласуется с полученным другими методами), а также известного романа Харпер Ли «Убить пересмешника»; показано, что к написанию первоначального варианта этой книги («Пойди, поставь сторожа») мог быть причастен Трумен Капоте, но финальный текст, вероятно, принадлежит Харпер Ли. Результаты подтверждены на основе параметрического критерия Пирсона, а также непараметрических U-критерия Манна–Уитни и критерия Крускала–Уоллиса.
Ключевые слова: атрибуция текстов, первая значащая цифра числительных.
A novel method of stylometry based on the statistic of numerals
Computer Research and Modeling, 2017, v. 9, no. 5, pp. 837-850A new method of statistical analysis of texts is suggested. The frequency distribution of the first significant digits in numerals of English-language texts is considered. We have taken into account cardinal as well as ordinal numerals expressed both in figures, and verbally. To identify the author’s use of numerals, we previously deleted from the text all idiomatic expressions and set phrases accidentally containing numerals, as well as itemizations and page numbers, etc. Benford’s law is found to hold approximately for the frequencies of various first significant digits of compound literary texts by different authors; a marked predominance of the digit 1 is observed. In coherent authorial texts, characteristic deviations from Benford’s law arise which are statistically stable significant author peculiarities that allow, under certain conditions, to consider the problem of authorship and distinguish between texts by different authors. The text should be large enough (at least about 200 kB). At the end of $\{1, 2, \ldots, 9\}$ digits row, the frequency distribution is subject to strong fluctuations and thus unrepresentative for our purpose. The aim of the theoretical explanation of the observed empirical regularity is not intended, which, however, does not preclude the applicability of the proposed methodology for text attribution. The approach suggested and the conclusions are backed by the examples of the computer analysis of works by W.M. Thackeray, M. Twain, R. L. Stevenson, J. Joyce, sisters Bront¨e, and J.Austen. On the basis of technique suggested, we examined the authorship of a text earlier ascribed to L. F. Baum (the result agrees with that obtained by different means). We have shown that the authorship of Harper Lee’s “To Kill a Mockingbird” pertains to her, whereas the primary draft, “Go Set a Watchman”, seems to have been written in collaboration with Truman Capote. All results are confirmed on the basis of parametric Pearson’s chi-squared test as well as non-parametric Mann –Whitney U test and Kruskal –Wallis test.
Keywords: text attribution, first significant digit of numerals.Просмотров за год: 10. -
Методика оценки эффективности систем мониторинга вычислительных ресурсов
Компьютерные исследования и моделирование, 2012, т. 4, № 3, с. 661-668В данной статье рассмотрен вклад, вносимый системой мониторинга вычислительных ресурсов в работу распределенной вычислительной системы, и предложена методика оценки этого вклада и эффективности работы системы мониторинга на основе меры определенности состояния подконтрольной системы. Рассмотрено применение этой методики в ходе разработки и развития системы локального мониторинга Центрального информационно-вычислительного комплекса Объединенного института ядерных исследований.
Ключевые слова: мониторинг вычислительных ресурсов, системы управления, эффективность системы мониторинга.
Methods of evaluating the effectiveness of systems for computing resources monitoring
Computer Research and Modeling, 2012, v. 4, no. 3, pp. 661-668Просмотров за год: 2. Цитирований: 2 (РИНЦ).This article discusses the contribution of computing resources monitoring system to the work of a distributed computing system. Method of evaluation of this contribution and performance monitoring system based on measures of certainty the state-controlled system is proposed. The application of this methodology in the design and development of local monitoring of the Central Information and Computing Complex, Joint Institute for Nuclear Research is listed.
-
Школы по математической биологии 1973–1992 гг.
Компьютерные исследования и моделирование, 2016, т. 8, № 2, с. 411-422В кратком обзоре описаны тематика и выборочные доклады Школ по моделированию сложных биологических систем. Школы явились естественным развитием этого направления науки в нашей стране, местом коллективного мозгового штурма, вдохновляемого такими выдающимися фигурами современности, как А. А. Ляпунов, Н. В. Тимофеев-Ресовский, А. М. Молчанов. На школах в острой дискуссионной форме поднимались общие вопросы методологии математического моделирования в биологии и экологии, обсуждались фундаментальные принципы структурной организации и функции сложных биологических и экологических систем. Школы служили важным примером междисциплинарного взаимодействия ученых разных не только и не столько специальностей, сколько разных мироощущений, подходов и способов отодвигать границу непознанного. Что тем не менее объединяло математиков и биологов, участников школ, так это общее понимание плодотворности данного союза. Доклады, дискуссии, размышления, сохранившиеся в материалах Школ, не потеряли актуальность до сих пор и могут служить определенными ориентирами для современного поколения ученых.
Ключевые слова: математическое моделирование, сложные биологические системы, уровни организации биологических систем, биосфера, экологическое моделирование.
Schools on mathematical biology 1973–1992
Computer Research and Modeling, 2016, v. 8, no. 2, pp. 411-422Просмотров за год: 2.This is a brief review of the subjects, and an impression of some talks, which were given at the Schools on modelling complex biological systems. Those Schools reflected a logical progress in this way of thinking in our country and provided a place for collective “brain-storming” inspired by prominent scientists of the last century, such as A. A. Lyapunov, N. V. Timofeeff-Ressovsky, A. M. Molchanov. At the Schools, general issues of methodology of mathematical modeling in biology and ecology were raised in the form of heated debates, the fundamental principles for how the structure of matter is organized and how complex biological systems function and evolve were discussed. The Schools served as an important sample of interdisciplinary actions by the scientists of distinct perceptions of the World, or distinct approaches and modes to reach the boundaries of the Unknown, rather than of different specializations. What was bringing together the mathematicians and biologists attending the Schools was the common understanding that the alliance should be fruitful. Reported in the issues of School proceedings, the presentations, discussions, and reflections have not yet lost their relevance so far and might serve as certain guidance for the new generation of scientists.
-
Обнаружение точек разворота на финансовых данных с помощью методов глубокого машинного обучения
Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 555-575Цель настоящего исследования заключается в разработке методологии выявления точек разворота на временных рядах, включая в том числе финансовые данные. Теоретической основой исследования послужили работы, посвященные анализу структурных изменений на финансовых рынках, описанию предложенных алгоритмов обнаружения точек разворота и особенностям построения моделей классического и глубокого машинного обучения для решения данного типа задач. Разработка подобного инструментария представляет интерес для инвесторов и других заинтересованных сторон, предоставляя дополнительные подходы к эффективному анализу финансовых рынков и интерпретации доступных данных.
Для решения поставленной задачи была обучена нейронная сеть. В ходе исследования было рассмотрено несколько способов формирования тренировочных выборок, которые различаются характером статистических параметров. Для повышения качества обучения и получения более точных результатов была разработана методология формирования признаков, служащих входными данными для нейронной сети. В свою очередь, эти признаки формируются на основе анализа математического ожидания и стандартного отклонения временных рядов на некоторых интервалах. Также исследуется возможностьих комбинации для достижения более стабильных результатов.
Результаты модельных экспериментов анализируются с целью сравнения эффективности предложенной модели с другими существующими алгоритмами обнаружения точек разворота, получившими широкое применение в решении практических задач. В качестве тренировочных и тестовых данных используется специально созданный датасет, генерация которого осуществляется с использованием собственных методов. Кроме того, обученная на различных признаках модельте стируется на дневных данных индекса S&P 500 в целях проверки ее эффективности в реальном финансовом контексте.
По мере описания принципов работы модели рассматриваются возможности для дальнейшего ее усовершенствования: модернизации структуры предложенного механизма, генерации тренировочных данных и формирования признаков. Кроме того, перед авторами стоит задача развития существующих концепций определения точек изменения в режиме реального времени.
Ключевые слова: точки разворота, временные ряды, финансовые рынки, машинное обучение, нейронные сети.
Changepoint detection on financial data using deep learning approach
Computer Research and Modeling, 2024, v. 16, no. 2, pp. 555-575The purpose of this study is to develop a methodology for change points detection in time series, including financial data. The theoretical basis of the study is based on the pieces of research devoted to the analysis of structural changes in financial markets, description of the proposed algorithms for detecting change points and peculiarities of building classical and deep machine learning models for solving this type of problems. The development of such tools is of interest to investors and other stakeholders, providing them with additional approaches to the effective analysis of financial markets and interpretation of available data.
To address the research objective, a neural network was trained. In the course of the study several ways of training sample formation were considered, differing in the nature of statistical parameters. In order to improve the quality of training and obtain more accurate results, a methodology for feature generation was developed for the formation of features that serve as input data for the neural network. These features, in turn, were derived from an analysis of mathematical expectations and standard deviations of time series data over specific intervals. The potential for combining these features to achieve more stable results is also under investigation.
The results of model experiments were analyzed to compare the effectiveness of the proposed model with other existing changepoint detection algorithms that have gained widespread usage in practical applications. A specially generated dataset, developed using proprietary methods, was utilized as both training and testing data. Furthermore, the model, trained on various features, was tested on daily data from the S&P 500 index to assess its effectiveness in a real financial context.
As the principles of the model’s operation are described, possibilities for its further improvement are considered, including the modernization of the proposed model’s structure, optimization of training data generation, and feature formation. Additionally, the authors are tasked with advancing existing concepts for real-time changepoint detection.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"