Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Релаксационные колебания и устойчивость тонких оболочек
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 807-820В работе изучаются возможности прогнозирования потери устойчивости тонких цилиндрических оболочек неразрушающими методами на стадии эксплуатации. Исследуются пологие оболочки, изготовленные из высокопрочных материалов. Для таких конструктивных решений характерны перемещения поверхностей, превосходящие толщины элементов. В рассматриваемых оболочках могут генерироваться релаксационные колебания значительной амплитуды даже при сравнительно невысоком уровне внутренних напряжений. Произведено упрощенное механико-математическое моделирование задачи о колебаниях цилиндрической оболочки, сводящее проблему к обыкновенному дифференциальному уравнению. При создании модели существенно использованы исследования многих авторов по изучению геометрии поверхности, образующейся после потери устойчивости. Нелинейное обыкновенное дифференциальное уравнение колеблющейся оболочки совпадает с хорошо изученным уравнением Дуффинга. Важно, что для тонких оболочек в уравнении Дуффинга появляется малый параметр перед второй производной по времени. Последнее обстоятельство дает возможность провести детальный анализ выведенного уравнения и описать релаксационные колебания — физическое явление, присущее только тонким высокопрочным оболочкам.
Показано, что гармонические колебания оболочки вокруг положения равновесия и устойчивые релаксационные колебания определяются точкой бифуркации решений уравнения Дуффинга. Эта точка является первой в схеме Фейгенбаума по преобразованию устойчивых периодических движений в динамический хаос. Произведены вычисления амплитуды и периода релаксационных колебаний в зависимости от физических свойств и уровня внутренних напряжений в оболочке. Рассмотрены два случая нагружения: сжатие вдоль образующих и внешнее давление.
Отмечено, что если внешние силы изменяются в течение времени по гармоническому закону, то периодическое колебание оболочки (нелинейный резонанс) состоит из отрезков медленного и скачкообразного движений. Этот факт, наряду со знанием амплитуды и частоты колеблющейся оболочки, позволяет предложить экспериментальную установку для прогноза потери устойчивости оболочки неразрушающим методом. В качестве критерия безопасности принято следующее требование: максимальные комбинации нагрузок не должны вызывать перемещения, превышающие заданные пределы. Получена формула, оценивающая запас устойчивости (коэффициент безопасности) конструкции по результатам экспериментальных измерений.
Ключевые слова: упругие оболочки, потеря устойчивости, релаксационные колебания, осциллятор Дуффинга, коэффициент безопасности, экспериментальный прогноз потери устойчивости.
Relaxation oscillations and buckling of thin shells
Computer Research and Modeling, 2020, v. 12, no. 4, pp. 807-820The paper reviews possibilities to predict buckling of thin cylindrical shells with non-destructive techniques during operation. It studies shallow shells made of high strength materials. Such structures are known for surface displacements exceeding the thickness of the elements. In the explored shells relaxation oscillations of significant amplitude can be generated even under relatively low internal stresses. The problem of the cylindrical shell oscillation is mechanically and mathematically modeled in a simplified form by conversion into an ordinary differential equation. To create the model, the researches of many authors were used who studied the geometry of the surface formed after buckling (postbuckling behavior). The nonlinear ordinary differential equation for the oscillating shell matches the well-known Duffing equation. It is important that there is a small parameter before the second time derivative in the Duffing equation. The latter circumstance enables making a detailed analysis of the obtained equation and describing the physical phenomena — relaxation oscillations — that are unique to thin high-strength shells.
It is shown that harmonic oscillations of the shell around the equilibrium position and stable relaxation oscillations are defined by the bifurcation point of the solutions to the Duffing equation. This is the first point in the Feigenbaum sequence to convert the stable periodic motions into dynamic chaos. The amplitude and the period of relaxation oscillations are calculated based on the physical properties and the level of internal stresses within the shell. Two cases of loading are reviewed: compression along generating elements and external pressure.
It is highlighted that if external forces vary in time according to the harmonic law, the periodic oscillation of the shell (nonlinear resonance) is a combination of slow and stick-slip movements. Since the amplitude and the frequency of the oscillations are known, this fact enables proposing an experimental facility for prediction of the shell buckling with non-destructive techniques. The following requirement is set as a safety factor: maximum load combinations must not cause displacements exceeding specified limits. Based on the results of the experimental measurements a formula is obtained to estimate safety against buckling (safety factor) of the structure.
-
Анализ прогностических свойств тремора земной поверхности с помощью разложения Хуанга
Компьютерные исследования и моделирование, 2024, т. 16, № 4, с. 939-958Предлагается метод анализа тремора земной поверхности, измеряемого средствами космической геодезии с целью выделения прогностических эффектов активизации сейсмичности. Метод иллюстрируется на примере совместного анализа совокупности синхронных временных рядов ежесуточных вертикальных смещений земной поверхности на Японских островах для интервала времени 2009–2023 гг. Анализ основан на разбиении исходных данных (1047 временных рядов) на блоки (кластеры станций) и последовательном применении метода главных компонент. Разбиение сети станций на кластеры производится методом k-средних из критерия максимума псевдо-статистики. Для Японии оптимальное число кластеров было выбрано равным 15. К временным рядам главных компонент от блоков станций применяется метод разложения Хуанга на последовательность независимых эмпирических мод колебаний (Empirical Mode Decomposition, EMD). Для обеспечения устойчивости оценок волновых форм EMD-разложения производилось усреднение 1000 независимых аддитивных реализаций белого шума ограниченной амплитуды. С помощью разложения Холецкого ковариационной матрицы волновых форм первых трех EMD-компонент в скользящем временном окне определены индикаторы аномального поведения тремора. Путем вычисления корреляционной функции между средними индикаторами аномального поведения и выде- лившейся сейсмической энергии в окрестности Японских островов установлено, что всплески меры ано- мального поведения тремора предшествуют выбросам сейсмической энергии. Целью статьи является про- яснение распространенных гипотез о том, что движения земной коры, регистрируемые средствами космической геодезии, могут содержать прогностическую информацию. То, что смещения, регистрируемые геодезическими методами, реагируют на последствия землетрясений, широко известно и многократно демонстрировалось. Но выделение геодезических эффектов, предвещающих сейсмические события, является значительно более сложной задачей. В нашей статье мы предлагаем один из методов обнаружения прогностических эффектов в данных космической геодезии.
Ключевые слова: тремор земной поверхности, кластерный анализ, метод главных компонент, разложение Хуанга, мера аномального поведения временных рядов, корреляционная функция.
Analysis of predictive properties of ground tremor using Huang decomposition
Computer Research and Modeling, 2024, v. 16, no. 4, pp. 939-958A method is proposed for analyzing the tremor of the earth’s surface, measured by means of space geodesy, in order to highlight the prognostic effects of seismicity activation. The method is illustrated by the example of a joint analysis of a set of synchronous time series of daily vertical displacements of the earth’s surface on the Japanese Islands for the time interval 2009–2023. The analysis is based on dividing the source data (1047 time series) into blocks (clusters of stations) and sequentially applying the principal component method. The station network is divided into clusters using the K-means method from the maximum pseudo-F-statistics criterion, and for Japan the optimal number of clusters was chosen to be 15. The Huang decomposition method into a sequence of independent empirical oscillation modes (EMD — Empirical Mode Decomposition) is applied to the time series of principal components from station blocks. To provide the stability of estimates of the waveforms of the EMD decomposition, averaging of 1000 independent additive realizations of white noise of limited amplitude was performed. Using the Cholesky decomposition of the covariance matrix of the waveforms of the first three EMD components in a sliding time window, indicators of abnormal tremor behavior were determined. By calculating the correlation function between the average indicators of anomalous behavior and the released seismic energy in the vicinity of the Japanese Islands, it was established that bursts in the measure of anomalous tremor behavior precede emissions of seismic energy. The purpose of the article is to clarify common hypotheses that movements of the earth’s crust recorded by space geodesy may contain predictive information. That displacements recorded by geodetic methods respond to the effects of earthquakes is widely known and has been demonstrated many times. But isolating geodetic effects that predict seismic events is much more challenging. In our paper, we propose one method for detecting predictive effects in space geodesy data.
-
Модель для анализа неравенства доходов на основе конечной функциональной последовательности (проблемы адекватности и применения)
Компьютерные исследования и моделирование, 2022, т. 14, № 3, с. 675-689Рассмотрены вопросы адекватности разработанной ранее автором модели для анализа неравенства доходов, основанной на эмпирически подтвержденной гипотезе о том, что относительные (по отношению к доходу наиболее богатой группы) величины дохода 20% групп населения в совокупном доходе могут быть приближенно представлены в виде конечной функциональной последовательности, каждый член которой зависит от одного параметра — специально определенного показателя неравенства. Показано, что в дополнение к существующим методам анализа неравенства с помощью этой модели можно определить зависимость доли дохода 20%, 10% и более мелких групп населения от уровня неравенства, выявить особенности их изменения при росте неравенства, рассчитать уровень неравенства при известных соотношениях между доходами различных групп населения и др.
В работе приводится более подробное подтверждение адекватности предложенной модели по сравнению с полученными ранее результатами статистического анализа эмпирических данных о распределении доходов между 20%- и 10%-ми группами населения. Оно основано на анализе определенных соотношений между величинами квинтилей и децилей согласно предлагаемой модели. Проверка этих соотношений проведена по совокупности данных для большого числа стран. Полученные оценки подтверждают достаточно высокую точность модели.
Приведены данные, которые подтверждают возможность применения модели для анализа зависимости распределения доходов по группам населения от уровня неравенства, а также для оценки показателя неравенства для вариантов соотношений доходов между различными группами, в том числе когда доход 20% наиболее богатых равен доходу 60% бедных, доходу 40% среднего класса или доходу 80% остального населения, а также когда доход 10% самых богатых равен доходу 40%, 50% или 60% бедных, доходу различных групп среднего класса и др., а также для случаев, когда распределение доходов подчиняется гармоническим пропорциям и когда квинтили и децили, соответствующие среднему классу, достигают максимума. Показано, что доли дохода наиболее богатых групп среднего класса относительно стабильны и имеют максимум при определенных уровнях неравенства.
Полученные с помощью модели результаты могут быть использованы для определения нормативов при разработке политики поэтапного повышении уровня прогрессивного налогообложения с целью перехода к уровню неравенства, характерному для стран с социально ориентированной экономикой.
Ключевые слова: неравенство, доход, модель, распределение, показатель неравенства, адекватность, последовательность.
A model for analyzing income inequality based on a finite functional sequence (adequacy and application problems)
Computer Research and Modeling, 2022, v. 14, no. 3, pp. 675-689The paper considers the adequacy of the model developed earlier by the author for the analysis of income inequality and based on an empirically confirmed hypothesis that the relative (to the income of the richest group) income values of 20% population groups in total income can be represented as a finite functional sequence, each member of which depends on one parameter — a specially defined indicator of inequality. It is shown that in addition to the existing methods of inequality analysis, the model makes it possible to estimate with the help of analytical expressions the income shares of 20%, 10% and smaller groups of the population for different levels of inequality, as well as to identify how they change with the growth of inequality, to estimate the level of inequality for known ratios between the incomes of different groups of the population, etc.
The paper provides a more detailed confirmation of the proposed model adequacy in comparison with the previously obtained results of statistical analysis of empirical data on the distribution of income between the 20% and 10% population groups. It is based on the analysis of certain ratios between the values of quintiles and deciles according to the proposed model. The verification of these ratios was carried out using a set of data for a large number of countries and the estimates obtained confirm the sufficiently high accuracy of the model.
Data are presented that confirm the possibility of using the model to analyze the dependence of income distribution by population groups on the level of inequality, as well as to estimate the inequality indicator for income ratios between different groups, including variants when the income of the richest 20% is equal to the income of the poor 60 %, income of the middle class 40% or income of the rest 80% of the population, as well as when the income of the richest 10% is equal to the income of the poor 40 %, 50% or 60%, to the income of various middle class groups, etc., as well as for cases, when the distribution of income obeys harmonic proportions and when the quintiles and deciles corresponding to the middle class reach a maximum. It is shown that the income shares of the richest middle class groups are relatively stable and have a maximum at certain levels of inequality.
The results obtained with the help of the model can be used to determine the standards for developing a policy of gradually increasing the level of progressive taxation in order to move to the level of inequality typical of countries with social oriented economy.
-
Динамические свойства полинуклеотидной цепи, состоящей из двух неодинаковых однородных последовательностей, разделенных границей
Компьютерные исследования и моделирование, 2013, т. 5, № 2, с. 241-253Для исследования динамики неоднородной полинуклеотидной цепочки ДНК была использована упрощенная Y-модель с нулевым диссипативным членом. На основе этой модели с помощью численных методов были проведены расчеты, демонстрирующие поведение нелинейного конформационного возмущения (кинка), распространяющегося вдоль неоднородной полинуклеотидной цепи, состоящей из двух разных однородных последовательностей нуклеотидов. Как показал численный анализ, нелинейное возмущение в виде кинка, распространяющееся вдоль рассматриваемой модельной молекулы ДНК, может вести себя тремя разными способами. При достижении границы между двумя однородными последовательностями, состоящими из разных типов оснований, кинк может: а) отразиться, б) пройти границу с ускорением (увеличить скорость), в) пройти границу с замедлением (уменьшить скорость).
The dynamics of polynucleotide chain consisting of two different homogeneous sequences, divided by interface
Computer Research and Modeling, 2013, v. 5, no. 2, pp. 241-253Просмотров за год: 1. Цитирований: 3 (РИНЦ).To research dynamics of inhomogeneous polynucleotide DNA chain the Y-model with no dissipation term was used. Basing on this model using numerical methods calculations were carried out, which have shown the behaviour of nonlinear conformational excitation (kink), spreading along the inhomogeneous polynucleotide chain, consisting of two different homogeneous nucleotide sequences. As numerical analysis shows there are three ways of behaviour of the nonlinear kink excitation spreading along the DNA chain. After reaching the interface between two homogeneous sequences consisting of different types of bases kink can a) reflect, b) pass the interface with acceleration (increase its velocity), c) pass the interface with deceleration (decrease its velocity).
-
Эффективный алгоритм сравнения документов в формате ${\mathrm{\LaTeX}}$
Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 329-345Рассматривается задача построения различий, возникающих при редактировании документов в формате ${\mathrm{\LaTeX}}$. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang–Shasha.
Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, редактирующее расстояние, синтаксическое дерево, токен, ${\mathrm{\LaTeX}}$.
An efficient algorithm for ${\mathrm{\LaTeX}}$ documents comparing
Computer Research and Modeling, 2015, v. 7, no. 2, pp. 329-345The problem is constructing the differences that arise on ${\mathrm{\LaTeX}}$ documents editing. Each document is represented as a parse tree whose nodes are called tokens. The smallest possible text representation of the document that does not change the syntax tree is constructed. All of the text is splitted into fragments whose boundaries correspond to tokens. A map of the initial text fragment sequence to the similar sequence of the edited document corresponding to the minimum distance is built with Hirschberg algorithm A map of text characters corresponding to the text fragment sequences map is cunstructed. Tokens, that chars are all deleted, or all inserted, or all not changed, are selected in the parse trees. The map for the trees formed with other tokens is built using Zhang–Shasha algorithm.
Keywords: automation, editing distance, text analysis, lexeme, machine learning, metric, parse tree, syntax tree, token, ${\mathrm{\LaTeX}}$.Просмотров за год: 2. Цитирований: 2 (РИНЦ). -
Биоматематическая система методов описания нуклеиновых кислот
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 417-434Статья посвящена применению методов математического анализа, поиска паттернов и изучения состава нуклеотидов в последовательностях ДНК на геномном уровне. Изложены новые методы математической биологии, которые позволили обнаружить и отобразить скрытую упорядоченность генетических нуклеотидных последовательностей, находящихся в клетках живых организмов. Исследования основаны на работах по алгебраической биологии доктора физико-математических наук С. В. Петухова, которым впервые были введены и обоснованы новые алгебры и гиперкомплексные числовые системы, описывающие генетические явления. В данной работе описана новая фаза развития матричных методов в генетике для исследования свойств нуклеотидных последовательностей (и их физико-химических параметров), построенная на принципах конечной геометрии. Целью исследования является демонстрация возможностей новых алгоритмов и обсуждение обнаруженных свойств генетических молекул ДНК и РНК. Исследование включает три этапа: параметризация, масштабирование и визуализация. Параметризация — определение учитываемых параметров, которые основаны на структурных и физико-химических свойствах нуклеотидов как элементарных составных частей генома. Масштабирование играет роль «фокусировки» и позволяет исследовать генетические структуры в различных масштабах. Визуализация включает выбор осей координатной системы и способа визуального отображения. Представленные в работе алгоритмы выдвигаются на роль расширенного инструментария для развития научно-исследовательского программного обеспечения анализа длинных нуклеотидных последовательностей с возможностью отображения геномов в параметрических пространствах различной размерности. Одним из значимых результатов исследования является то, что были получены новые биологически интерпретируемые критерии классификации геномов различных живых организмов для выявления межвидовых взаимосвязей. Новая концепция позволяет визуально и численно оценить вариативность физико-химических параметров нуклеотидных последовательностей. Эта концепция также позволяет обосновать связь параметров молекул ДНК и РНК с фрактальными геометрическими мозаиками, обнаруживает упорядоченность и симметрии полинуклеотидов и их помехоустойчивость. Полученные результаты стали обоснованием для введения новых научных терминов: «генометрия» как методология вычислительных стратегий и «генометрика» как конкретные параметры того или иного генома или нуклеотидной последовательности. В связи с результатами исследования затронуты вопросы биосемиотики и уровни иерархичности организации живой материи.
Ключевые слова: генетические алгоритмы, вариативность, многомерный анализ данных, физико-химические параметры нуклеиновых кислот, конечная геометрия.
Biomathematical system of the nucleic acids description
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 417-434The article is devoted to the application of various methods of mathematical analysis, search for patterns and studying the composition of nucleotides in DNA sequences at the genomic level. New methods of mathematical biology that made it possible to detect and visualize the hidden ordering of genetic nucleotide sequences located in the chromosomes of cells of living organisms described. The research was based on the work on algebraic biology of the doctor of physical and mathematical sciences S. V. Petukhov, who first introduced and justified new algebras and hypercomplex numerical systems describing genetic phenomena. This paper describes a new phase in the development of matrix methods in genetics for studying the properties of nucleotide sequences (and their physicochemical parameters), built on the principles of finite geometry. The aim of the study is to demonstrate the capabilities of new algorithms and discuss the discovered properties of genetic DNA and RNA molecules. The study includes three stages: parameterization, scaling, and visualization. Parametrization is the determination of the parameters taken into account, which are based on the structural and physicochemical properties of nucleotides as elementary components of the genome. Scaling plays the role of “focusing” and allows you to explore genetic structures at various scales. Visualization includes the selection of the axes of the coordinate system and the method of visual display. The algorithms presented in this work are put forward as a new toolkit for the development of research software for the analysis of long nucleotide sequences with the ability to display genomes in parametric spaces of various dimensions. One of the significant results of the study is that new criteria were obtained for the classification of the genomes of various living organisms to identify interspecific relationships. The new concept allows visually and numerically assessing the variability of the physicochemical parameters of nucleotide sequences. This concept also allows one to substantiate the relationship between the parameters of DNA and RNA molecules with fractal geometric mosaics, reveals the ordering and symmetry of polynucleotides, as well as their noise immunity. The results obtained justified the introduction of new terms: “genometry” as a methodology of computational strategies and “genometrica” as specific parameters of a particular genome or nucleotide sequence. In connection with the results obtained, biosemiotics and hierarchical levels of organization of living matter are raised.
-
Определение промоторных и непромоторных последовательностей E.coli по профилям их электростатического потенциала
Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 347-359В рамках данной работыбы ла продемонстрирована возможность использования характеристик профилей электростатического потенциала вдоль последовательностей ДНК для определения их функционального класса. Построенымо дели, позволяющие разделять промоторные и непромоторные последовательности (случайные бернуллиевские, кодирующие и псевдопромоторы) с точностью порядка 83–85%. Определены наиболее значимые участки для такого разделения, по-видимому играющие важную роль при ДНК-полимеразном узнавании.
Detection of promoter and non-promoter E.coli sequences by analysis of their electrostatic profiles
Computer Research and Modeling, 2015, v. 7, no. 2, pp. 347-359Просмотров за год: 3.The article is devoted to the idea of using physical properties of DNA instead of sequence along for the aspect of accurate search and annotation of various prokaryotic genomic regions. Particulary, the possibility to use electrostatic potential distribution around DNA sequence as a classifier for identification of a few functional DNA regions was demonstrated. A number of classification models was built providing discrimination of promoters and non-promoter regions (random sequences, coding regions and promoter-like sequences) with accuracy value about 83–85%. The most valueable regions for the discrimination were determined and expected to play a certain role in the process of DNA-recognition by RNA-polymerase.
-
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
Extracting knowledge from text messages: overview and state-of-the-art
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1291-1315In general, solving the information explosion problem can be delegated to systems for automatic processing of digital data. These systems are intended for recognizing, sorting, meaningfully processing and presenting data in formats readable and interpretable by humans. The creation of intelligent knowledge extraction systems that handle unstructured data would be a natural solution in this area. At the same time, the evident progress in these tasks for structured data contrasts with the limited success of unstructured data processing, and, in particular, document processing. Currently, this research area is undergoing active development and investigation. The present paper is a systematic survey on both Russian and international publications that are dedicated to the leading trend in automatic text data processing: Text Mining (TM). We cover the main tasks and notions of TM, as well as its place in the current AI landscape. Furthermore, we analyze the complications that arise during the processing of texts written in natural language (NLP) which are weakly structured and often provide ambiguous linguistic information. We describe the stages of text data preparation, cleaning, and selecting features which, alongside the data obtained via morphological, syntactic, and semantic analysis, constitute the input for the TM process. This process can be represented as mapping a set of text documents to «knowledge». Using the case of stock trading, we demonstrate the formalization of the problem of making a trade decision based on a set of analytical recommendations. Examples of such mappings are methods of Information Retrieval (IR), text summarization, sentiment analysis, document classification and clustering, etc. The common point of all tasks and techniques of TM is the selection of word forms and their derivatives used to recognize content in NL symbol sequences. Considering IR as an example, we examine classic types of search, such as searching for word forms, phrases, patterns and concepts. Additionally, we consider the augmentation of patterns with syntactic and semantic information. Next, we provide a general description of all NLP instruments: morphological, syntactic, semantic and pragmatic analysis. Finally, we end the paper with a comparative analysis of modern TM tools which can be helpful for selecting a suitable TM platform based on the user’s needs and skills.
-
Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.
Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.
Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.
Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.
Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.
Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.
Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.
Ключевые слова: тематическое моделирование, иерархическая агломеративная группировка, онтология, общий словарь, контентная аутентичность.
Semantic structuring of text documents based on patterns of natural language entities
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1185-1197The technology of creating patterns from natural language words (concepts) based on text data in the bag of words model is considered. Patterns are used to reduce the dimension of the original space in the description of documents and search for semantically related words by topic. The process of dimensionality reduction is implemented through the formation of patterns of latent features. The variety of structures of document relations is investigated in order to divide them into themes in the latent space.
It is considered that a given set of documents (objects) is divided into two non-overlapping classes, for the analysis of which it is necessary to use a common dictionary. The belonging of words to a common vocabulary is initially unknown. Class objects are considered as opposition to each other. Quantitative parameters of oppositionality are determined through the values of the stability of each feature and generalized assessments of objects according to non-overlapping sets of features.
To calculate the stability, the feature values are divided into non-intersecting intervals, the optimal boundaries of which are determined by a special criterion. The maximum stability is achieved under the condition that the boundaries of each interval contain values of one of the two classes.
The composition of features in sets (patterns of words) is formed from a sequence ordered by stability values. The process of formation of patterns and latent features based on them is implemented according to the rules of hierarchical agglomerative grouping.
A set of latent features is used for cluster analysis of documents using metric grouping algorithms. The analysis applies the coefficient of content authenticity based on the data on the belonging of documents to classes. The coefficient is a numerical characteristic of the dominance of class representatives in groups.
To divide documents into topics, it is proposed to use the union of groups in relation to their centers. As patterns for each topic, a sequence of words ordered by frequency of occurrence from a common dictionary is considered.
The results of a computational experiment on collections of abstracts of scientific dissertations are presented. Sequences of words from the general dictionary on 4 topics are formed.
-
Статистически справедливая цена на европейские опционы колл согласно дискретной модели «среднее–дисперсия»
Компьютерные исследования и моделирование, 2014, т. 6, № 5, с. 861-874Мы рассматриваем портфель с опционом колл и соответствующим базовым активом при стандартном предположении, что рыночная цена является случайной величиной с логнормальным распределением. Минимизируя дисперсию (риск хеджирования) портфеля на дату погашения опциона, мы находим оптимальное соотношение опциона и актива в портфеле. Как прямое следствие мы получим статистически справедливую цену опциона колл в явной форме (случай опциона пут может быть рассмотрен аналогичным образом). В отличие от известной теории Блэка–Шоулза, любой портфель не может рассматриваться свободным от риска, потому что никаких дополнительных сделок в течение контракта не предполагается, но среднестатистический риск, относящийся к достаточно большому количеству независимых портфелей, стремится к нулю асимптотически. Это свойство иллюстрируется в экспериментальном разделе на основе ежедневных цен акций 37-ми лидирующих американских компаний за период времени, начиная с апреля 2006 года по январь 2013 года.
Statistically fair price for the European call options according to the discreet mean/variance model
Computer Research and Modeling, 2014, v. 6, no. 5, pp. 861-874Просмотров за год: 1.We consider a portfolio with call option and the corresponding underlying asset under the standard assumption that stock-market price represents a random variable with lognormal distribution. Minimizing the variance hedging risk of the portfolio on the date of maturity of the call option we find a fraction of the asset per unit call option. As a direct consequence we derive the statistically fair lookback call option price in explicit form. In contrast to the famous Black–Scholes theory, any portfolio cannot be regarded as risk-free because no additional transactions are supposed to be conducted over the life of the contract, but the sequence of independent portfolios will reduce risk to zero asymptotically. This property is illustrated in the experimental section using a dataset of daily stock prices of 37 leading US-based companies for the period from April 2006 to January 2013.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"