Текущий выпуск Номер 1, 2021 Том 13
Результаты поиска по 'machine learning':
Найдено статей: 15
  1. Полежаев В.А.
    Задачи и методы автоматического построения графа цитирований по коллекции научных документов
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 707-719

    Задача автоматического построения графа цитирования по коллекции научных документов сводится к решению последовательности задач распознавания. Рассматриваются методы решения, их адаптация и объединение в технологическую цепочку, приводятся результаты вычислительных экспериментов для некоторых задач.

    Polezhaev V.A.
    Automated citation graph building from a corpora of scientific documents
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 707-719

    In this paper the problem of automated building of a citation graph from a collection of scientific documents is considered as a sequence of machine learning tasks. The overall data processing technology is described which consists of six stages: preprocessing, metainformation extraction, bibliography lists extraction, splitting bibliography lists into separate bibliography records, standardization of each bibliography record, and record linkage. The goal of this paper is to provide a survey of approaches and algorithms suitable for each stage, motivate the choice of the best combination of algorithms, and adapt some of them for multilingual bibliographies processing. For some of the tasks new algorithms and heuristics are proposed and evaluated on the mixed English and Russian documents corpora.

    Просмотров за год: 5. Цитирований: 1 (РИНЦ).
  2. Бахвалов Ю.Н., Копылов И.В.
    Обучение и оценка обобщающей способности методов интерполяции
    Компьютерные исследования и моделирование, 2015, т. 7, № 5, с. 1023-1031

    В данной статье исследуются методы машинного обучения с определенным видом решающего правила. К ним относятся интерполяция по методу обратно взвешенных расстояний, метод интерполяции радиальными базисными функциями, метод многомерной интерполяции и аппроксимации на основе теории случайных функций, кригинг. Показано, что для данных методов существует способ быстрого переобучения «модели» при добавлении новых данных к существующим. Под «моделью» понимается построенная по обучающим данным интерполирующая или аппроксимирующая функция. Данный подход позволяет уменьшить вычислительную сложность построения обновленной «модели» с $O(n^3)$ до $O(n^2)$. Также будет исследована возможность быстрого оценивания обобщающих возможностей «модели» на обучающей выборке при помощи метода скользящего контроля leave-one-out cross-validation, устранив главный недостаток такого подхода — необходимость построения новой «модели» при каждом удалении элемента из обучающей выборки.

    Bakhvalov Y.N., Kopylov I.V.
    Training and assessment the generalization ability of interpolation methods
    Computer Research and Modeling, 2015, v. 7, no. 5, pp. 1023-1031

    We investigate machine learning methods with a certain kind of decision rule. In particular, inverse-distance method of interpolation, method of interpolation by radial basis functions, the method of multidimensional interpolation and approximation, based on the theory of random functions, the last method of interpolation is kriging. This paper shows a method of rapid retraining “model” when adding new data to the existing ones. The term “model” means interpolating or approximating function constructed from the training data. This approach reduces the computational complexity of constructing an updated “model” from $O(n^3)$ to $O(n^2)$. We also investigate the possibility of a rapid assessment of generalizing opportunities “model” on the training set using the method of cross-validation leave-one-out cross-validation, eliminating the major drawback of this approach — the necessity to build a new “model” for each element which is removed from the training set.

    Просмотров за год: 7. Цитирований: 5 (РИНЦ).
  3. В данной статье исследуется метод машинного обучения на основе теории случайных функций. Одной из основных проблем данного метода является то, что вид решающего правила модели метода, построенной на данных обучающей выборки, становится более громоздким при увеличении количества примеров выборки. Решающее правило модели является наиболее вероятной реализацией случайной функции и представляется в виде многочлена с количеством слагаемых, равным количеству обучающих элементов выборки. В статье будет показано, что для рассматриваемого метода существует быстрый способ сокращения обучающей выборки и, соответственно, вида решающего правила. Уменьшение примеров обучающей выборки происходит за счет поиска и удаления малоинформативных (слабых) элементов, которые незначительно влияют на итоговый вид решающей функции, и шумовых элементов выборки. Для каждого $(x_i,y_i)$-го элемента выборки было введено понятие значимости, выражающееся величиной отклонения оцененного значения решающей функции модели в точке $x_i$, построенной без $i$-го элемента, от реального значения $y_i$. Будет показана возможность косвенного использования найденных слабых элементов выборки при обучении модели метода, что позволяет не увеличивать количество слагаемых в полученной решающей функции. Также в статье будут описаны проведенные эксперименты, в которых показано, как изменение количества обучающих данных влияет на обобщающую способность решающего правила модели в задаче классификации.

    This article explores a method of machine learning based on the theory of random functions. One of the main problems of this method is that decision rule of a model becomes more complicated as the number of training dataset examples increases. The decision rule of the model is the most probable realization of a random function and it's represented as a polynomial with the number of terms equal to the number of training examples. In this article we will show the quick way of the number of training dataset examples reduction and, accordingly, the complexity of the decision rule. Reducing the number of examples of training dataset is due to the search and removal of weak elements that have little effect on the final form of the decision function, and noise sampling elements. For each $(x_i,y_i)$-th element sample was introduced the concept of value, which is expressed by the deviation of the estimated value of the decision function of the model at the point $x_i$, built without the $i$-th element, from the true value $y_i$. Also we show the possibility of indirect using weak elements in the process of training model without increasing the number of terms in the decision function. At the experimental part of the article, we show how changed amount of data affects to the ability of the method of generalizing in the classification task.

    Просмотров за год: 5.
  4. Зинченко Д.А., Никонов Э.Г., Зинченко А.И.
    Моделирование и анализ основных характеристик внутренней трековой системы многофункционального детектора частиц MPD методом Монте-Карло
    Компьютерные исследования и моделирование, 2019, т. 11, № 1, с. 87-94

    В настоящее время в ОИЯИ (Дубна) осуществляется строительство ускорительного комплекса NICA для проведения экспериментов по изучению взаимодействий релятивистских ядер и поляризованных частиц (протонов и дейтронов). Одна из создаваемых экспериментальных установок MPD (MultiPurpose Detector) рассчитана на изучение ядро-ядерных, протон-ядерных и протон-протонных взаимодействий. В связи с планами развития установки MPD рассматривается возможность создания внутреннего трекера с использованием кремниевых пиксельных детекторов нового поколения. Предполагается, что такой детектор позволит значительно повысить исследовательский потенциал эксперимента как для ядро-ядерных (за счет высокого пространственного разрешения вблизи области пересечения пучков), так и для протон-протонных (за счет высокого быстродействия) взаимодействий.

    В представленной работе изучаются основные характеристики такого трекера с использованием данных по протон-протонным взаимодействиям, полученных с помощью моделирования методом Монте-Карло. В частности, оцениваются возможности детектора по восстановлению вершин распада короткоживущих частиц и по выделению редких событий таких распадов среди продуктов гораздо более вероятных «обычных» взаимодействий. Также затрагивается проблема разделения вершин взаимодействий для восстановления наложенных событий при высокой светимости ускорителя и способность детектора проводить быструю селекцию редких событий (триггер). Полученные результаты могут быть использованы для обоснования необходимости создания данного детектора и развития системы триггера высокого уровня, основанного в том числе на методах машинного обучения.

    Zinchenko D.A., Nikonov E.G., Zinchenko A.I.
    A Monte-Carlo study of the inner tracking system main characteristics for multi purpose particle detector MPD
    Computer Research and Modeling, 2019, v. 11, no. 1, pp. 87-94

    At present, the accelerator complex NICA is being built at JINR (Dubna). It is intended for performing experiments to study interactions of relativistic nuclei and polarized particles (protons and deuterons). One of the experimental facilitues MPD (MultiPurpose Detector) was designed to investigate nucleus-nucleus, protonnucleus and proton-proton interactions. The existing plans of future MPD upgrade consider a possibility to install an inner tracker made of the new generation silicon pixel sensors. It is expected that such a detector will considerably enhance the research capability of the experiment both for nucleus-nucleus interactions (due to a high spatial resolution near the collision region) and proton-proton ones (due to a fast detector response).

    This paper presents main characteristics of such a tracker, obtained using a Monte-Carlo simulation of the detector for proton-proton collisions. In particular, the detector ability to reconstruct decay vertices of short-lived particles and perform a selection of rare events of such decays from much more frequent “common” interactions are evaluated. Also, the problem of a separation of multiple collisions during the high luminosity accelerator running and the task of detector triggering on rare events are addressed. The results obtained can be used to justify the necessity to build such a detector and to develop a high-level trigger system, possibly based on machine learning techniques.

    Просмотров за год: 28.
  5. Алёшин И.М., Малыгин И.В.
    Интерпретация результатов радиоволнового просвечивания методами машинного обучения
    Компьютерные исследования и моделирование, 2019, т. 11, № 4, с. 675-684

    В настоящий момент значительно возросла глубина работ по разведке кимберлитовых тел и рудных месторождений. Традиционные геологические методы поиска оказались неэффективными. Практически единственным прямым методом поиска является бурение системы скважин до глубин, которые обеспечивают доступ к вмещающим породам. Из-за высокой стоимости бурения возросла роль межскважинных методов. Они позволяют увеличить среднее расстояние между скважинами без существенного снижения вероятности пропуска кимберлитового или рудного тела. Метод радиоволнового просвечивания особенно эффективен при поиске объектов, отличающихся высокой контрастностью электропроводящих свойств. Физическую основу метода составляет зависимость распространения электромагнитной волны от проводящих свойств среды распространения. Источником и приемником электромагнитного излучения является электрический диполь. При измерениях они размещаются в соседних скважинах. Расстояние между источником и приемником известно. Поэтому, измерив величину уменьшения амплитуды электромагнитной волны при ее распространении между скважинами, можно оценить коэффициент поглощения среды. Породе с низким электрическим сопротивлением соответствует высокое поглощение радиоволн. Поэтому данные межскважинных измерений позволяют оценить эффективное электрическое сопротивление породы. Обычно источник и приемник синхронно погружаются в соседние скважины. Измерение величины амплитуды электрического поля в приемнике позволяет оценить среднее значение коэффициента затухания на линии, соединяющей источник и приемник. Измерения проводятся во время остановок, приблизительно каждые 5 м. Расстояние между остановками значительно меньше расстояния между соседними скважинами. Это приводит к значительной пространственной анизотропии в распределении данных. При проведении разведочного бурения скважины покрывают большую площадь. Наша цель состоит в построении трехмерной модели распределения электрических свойств межскважинного пространства на всем участке по результатом совокупности измерений. Анизотропия пространственного распределения измерений препятствует использованию стандартных методов геостатистики. Для построения трехмерной модели коэффициента затухания мы использовали один из методов теории машинного обучения — метод ближайших соседей. В этом методе коэффициент поглощения в заданной точке определяется его значениями для $k$ ближайших измерений. Число $k$ определяется из дополнительных соображений. Влияния анизотропии пространственного распределения измерений удается избежать, изменив пространственный масштаб в горизонтальном направлении. Масштабный множитель $\lambda$ является еще одним внешним параметром задачи. Для выбора значений параметров $k$ и $\lambda$ мы использовали коэффициент детерминации. Для демонстрации процедуры построения трехмерного образа коэффициента поглощения мы воспользовались данными межскважинного радиоволнового просвечивания, полученные на одном из участков в Якутии.

    Aleshin I.M., Malygin I.V.
    Machine learning interpretation of inter-well radiowave survey data
    Computer Research and Modeling, 2019, v. 11, no. 4, pp. 675-684

    Traditional geological search methods going to be ineffective. The exploration depth of kimberlite bodies and ore deposits has increased significantly. The only direct exploration method is to drill a system of wells to the depths that provide access to the enclosing rocks. Due to the high cost of drilling, the role of inter-well survey methods has increased. They allows to increase the mean well spacing without significantly reducing the kimberlite or ore body missing probability. The method of inter-well radio wave survey is effective to search for high contrast conductivity objects. The physics of the method based on the dependence of the electromagnetic wave propagation on the propagation medium conductivity. The source and receiver of electromagnetic radiation is an electric dipole, they are placed in adjacent wells. The distance between the source and receiver is known. Therefore we could estimate the medium absorption coefficient by the rate of radio wave amplitude decrease. Low electrical resistance rocks corresponds to high absorption of radio waves. The inter-well measurement data allows to estimate an effective electrical resistance (or conductivity) of the rock. Typically, the source and receiver are immersed in adjacent wells synchronously. The value of the of the electric field amplitude measured at the receiver site allows to estimate the average value of the attenuation coefficient on the line connecting the source and receiver. The measurements are taken during stops, approximately every 5 m. The distance between stops is much less than the distance between adjacent wells. This leads to significant spatial anisotropy in the measured data distribution. Drill grid covers a large area, and our point is to build a three-dimensional model of the distribution of the electrical properties of the inter-well space throughout the whole area. The anisotropy of spatial distribution makes hard to the use of standard geostatistics approach. To build a three-dimensional model of attenuation coefficient, we used one of machine learning theory methods, the method of nearest neighbors. In this method, the value of the absorption coefficient at a given point is calculated by $k$ nearest measurements. The number $k$ should be determined from additional reasons. The spatial distribution anisotropy effect can be reduced by changing the spatial scale in the horizontal direction. The scale factor $\lambda$ is one yet external parameter of the problem. To select the parameters $k$ and $\lambda$ values we used the determination coefficient. To demonstrate the absorption coefficient three-dimensional image construction we apply the procedure to the inter-well radio wave survey data. The data was obtained at one of the sites in Yakutia.

    Просмотров за год: 3.
  6. Кондратьев М.А.
    Методы прогнозирования и модели распространения заболеваний
    Компьютерные исследования и моделирование, 2013, т. 5, № 5, с. 863-882

    Число работ, посвященных прогнозированию инфекционной заболеваемости, стремительно растет по мере появления статистики, позволяющей провести анализ. В настоящей статье представлен обзор основных решений, доступных сегодня для формирования как краткосрочных, так и долгосрочных проекций заболеваемости; указаны их ограничения и возможности практического применения. Рассмотрены традиционные методы анализа временных рядов — регрессионные и авторегрессионные модели; подходы, опирающиеся на машинное обучение — байесовские сети и искусственные нейронные сети; рассуждения на основе прецедентов; техники, базирующиеся на решении задачи фильтрации. Перечислены важнейшие направления разработки математических моделей распространения заболевания: классические аналитические модели, детерминированные и стохастические, а также современные имитационные модели, сетевые и агентные.

    Kondratyev M.A.
    Forecasting methods and models of disease spread
    Computer Research and Modeling, 2013, v. 5, no. 5, pp. 863-882

    The number of papers addressing the forecasting of the infectious disease morbidity is rapidly growing due to accumulation of available statistical data. This article surveys the major approaches for the shortterm and the long-term morbidity forecasting. Their limitations and the practical application possibilities are pointed out. The paper presents the conventional time series analysis methods — regression and autoregressive models; machine learning-based approaches — Bayesian networks and artificial neural networks; case-based reasoning; filtration-based techniques. The most known mathematical models of infectious diseases are mentioned: classical equation-based models (deterministic and stochastic), modern simulation models (network and agent-based).

    Просмотров за год: 71. Цитирований: 19 (РИНЦ).
  7. Катасёв А.С.
    Нейронечеткая модель формирования нечетких правил для оценки состояния объектов в условиях неопределенности
    Компьютерные исследования и моделирование, 2019, т. 11, № 3, с. 477-492

    В данной статье решается задача построения нейронечеткой модели формирования нечетких правил и их использования для оценки состояния объектов в условиях неопределенности. Традиционные методы математической статистики или имитационного моделирования не позволяют строить адекватные модели объектов в указанных условиях. Поэтому в настоящее время решение многих задач основано на использовании технологий интеллектуального моделирования с применением методов нечеткой логики. Традиционный подход к построению нечетких систем связан с необходимостью привлечения эксперта для формулирования нечетких правил и задания используемых в них функций принадлежности. Для устранения этого недостатка актуальна автоматизация формирования нечетких правил на основе методов и алгоритмов машинного обучения. Одним из подходов к решению данной задачи является построение нечеткой нейронной сети и обучение ее на данных, характеризующих исследуемый объект. Реализация этого подхода потребовала выбора вида нечетких правил с учетом особенностей обрабатываемых данных. Кроме того, потребовалась разработка алгоритма логического вывода на правилах выбранного вида. Этапы алгоритма определяют число слоев в структуре нечеткой нейронной сети и их функциональность. Разработан алгоритм обучения нечеткой нейронной сети. После ее обучения производится формирование системы нечетко-продукционных правил. На базе разработанного математического обеспечения реализован программный комплекс. На его основе проведены исследования по оценке классифицирующей способности формируемых нечетких правил на примере анализа данных из UCI Machine Learning Repository. Результаты исследований показали, что классифицирующая способность сформированных нечетких правил не уступает по точности другим методам классификации. Кроме того, алгоритм логического вывода на нечетких правилах позволяет успешно производить классификацию при отсутствии части исходных данных. С целью апробации произведено формирование нечетких правил для решения задачи по оценке состояния водоводов в нефтяной отрасли. На основе исходных данных по 303 водоводам сформирована база из 342 нечетких правил. Их практическая апробация показала высокую эффективность в решении поставленной задачи.

    Katasev A.S.
    Neuro-fuzzy model of fuzzy rules formation for objects state evaluation in conditions of uncertainty
    Computer Research and Modeling, 2019, v. 11, no. 3, pp. 477-492

    This article solves the problem of constructing a neuro-fuzzy model of fuzzy rules formation and using them for objects state evaluation in conditions of uncertainty. Traditional mathematical statistics or simulation modeling methods do not allow building adequate models of objects in the specified conditions. Therefore, at present, the solution of many problems is based on the use of intelligent modeling technologies applying fuzzy logic methods. The traditional approach of fuzzy systems construction is associated with an expert attraction need to formulate fuzzy rules and specify the membership functions used in them. To eliminate this drawback, the automation of fuzzy rules formation, based on the machine learning methods and algorithms, is relevant. One of the approaches to solve this problem is to build a fuzzy neural network and train it on the data characterizing the object under study. This approach implementation required fuzzy rules type choice, taking into account the processed data specificity. In addition, it required logical inference algorithm development on the rules of the selected type. The algorithm steps determine the number and functionality of layers in the fuzzy neural network structure. The fuzzy neural network training algorithm developed. After network training the formation fuzzyproduction rules system is carried out. Based on developed mathematical tool, a software package has been implemented. On its basis, studies to assess the classifying ability of the fuzzy rules being formed have been conducted using the data analysis example from the UCI Machine Learning Repository. The research results showed that the formed fuzzy rules classifying ability is not inferior in accuracy to other classification methods. In addition, the logic inference algorithm on fuzzy rules allows successful classification in the absence of a part of the initial data. In order to test, to solve the problem of assessing oil industry water lines state fuzzy rules were generated. Based on the 303 water lines initial data, the base of 342 fuzzy rules was formed. Their practical approbation has shown high efficiency in solving the problem.

    Просмотров за год: 12.
  8. Кирилюк И.Л., Волынский А.И., Круглова М.С., Кузнецова А.В., Рубинштейн А.А., Сенько О.В.
    Эмпирическая проверка теории институциональных матриц методами интеллектуального анализа данных
    Компьютерные исследования и моделирование, 2015, т. 7, № 4, с. 923-939

    Цель настоящего исследования состояла в установлении достоверной взаимосвязи показателей внешней среды и уровня освоенности территорий с характером доминирующих в странах институциональных матриц. Среди индикаторов внешних условий представлены как исходные статистические показатели, напрямую полученные из баз данных открытого доступа, так и сложные интегральные показатели, сформированные путем применения метода главных компонент. Оценка точности распознавания стран с доминированием X- или Y-институциональных матриц по перечисленным показателям проводилась с помощью ряда методов, основанных на машинном обучении. Была выявлена высокая информативность таких показателей, как освоенность территории, амплитуда осадков, летние и зимние температуры, уровень рисков.

    Kirilyuk I.L., Volynsky A.I., Kruglova M.S., Kuznetsova A.V., Rubinstein A.A., Sen'ko O.V.
    Empirical testing of institutional matrices theory by data mining
    Computer Research and Modeling, 2015, v. 7, no. 4, pp. 923-939

    The paper has a goal to identify a set of parameters of the environment and infrastructure with the most significant impact on institutional-matrices that dominate in different countries. Parameters of environmental conditions includes raw statistical indices, which were directly derived from the databases of open access, as well as complex integral indicators that were by method of principal components. Efficiency of discussed parameters in task of dominant institutional matrices type recognition (X or Y type) was evaluated by a number of methods based on machine learning. It was revealed that greatest informational content is associated with parameters characterizing risk of natural disasters, level of urbanization and the development of transport infrastructure, the monthly averages and seasonal variations of temperature and precipitation.

    Просмотров за год: 7. Цитирований: 13 (РИНЦ).
  9. Гребенкин И.В., Алексеенко А.Е., Гайворонский Н.А., Игнатов М.Г., Казённов А.М., Козаков Д.В., Кулагин А.П., Холодов Я.А.
    Применение ансамбля нейросетей и методов статистической механики для предсказания связывания пептида с главным комплексом гистосовместимости
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1383-1395

    Белки главного комплекса гистосовместимости (ГКГС) играют ключевую роль в работе адаптивной иммунной системы, и определение связывающихся с ними пептидов — важный шаг в разработке вакцин и понимании механизмов аутоиммунных заболеваний. На сегодняшний день существует ряд методов для предсказания связывания определенной аллели ГКГС с пептидом. Одним из лучших таких методов является NetMHCpan-4.0, основанный на ансамбле искусственных нейронных сетей. В данной работе представлена методология качественного улучшения архитектуры нейронной сети, лежащей в основе NetMHCpan-4.0. Предлагаемый метод использует технику построения ансамбля и добавляет в качестве входных данных оценку модели Поттса, взятой из статистической механики и являющейся обобщением модели Изинга. В общем случае модельо тражает взаимодействие спинов в кристаллической решетке. Применительно к задаче белок-пептидного взаимодействия вместо спинов используются типы аминокислот, находящихся в кармане связывания. В предлагаемом методе модель Поттса используется для более всестороннего представления физической природы взаимодействия полипептидных цепей, входящих в состав комплекса. Для оценки взаимодействия комплекса «ГКГС + пептид» нами используется двумерная модель Поттса с 20 состояниями (соответствующими основным аминокислотам). Решая обратную задачу с использованием данных об экспериментально подтвержденных взаимодействующих парах, мы получаем значения параметров модели Поттса, которые затем применяем для оценки новой пары «ГКГС + пептид», и дополняем этим значением входные данные нейронной сети. Такой подход, в сочетании с техникой построения ансамбля, позволяет улучшитьт очность предсказания, по метрике положительной прогностической значимости (PPV), по сравнению с базовой моделью.

    Grebenkin I.V., Alekseenko A.E., Gaivoronskiy N.A., Ignatov M.G., Kazennov A.M., Kozakov D.V., Kulagin A.P., Kholodov Y.A.
    Ensemble building and statistical mechanics methods for MHC-peptide binding prediction
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1383-1395

    The proteins of the Major Histocompatibility Complex (MHC) play a key role in the functioning of the adaptive immune system, and the identification of peptides that bind to them is an important step in the development of vaccines and understanding the mechanisms of autoimmune diseases. Today, there are a number of methods for predicting the binding of a particular MHC allele to a peptide. One of the best such methods is NetMHCpan-4.0, which is based on an ensemble of artificial neural networks. This paper presents a methodology for qualitatively improving the underlying neural network underlying NetMHCpan-4.0. The proposed method uses the ensemble construction technique and adds as input an estimate of the Potts model taken from static mechanics, which is a generalization of the Ising model. In the general case, the model reflects the interaction of spins in the crystal lattice. Within the framework of the proposed method, the model is used to better represent the physical nature of the interaction of proteins included in the complex. To assess the interaction of the MHC + peptide complex, we use a two-dimensional Potts model with 20 states (corresponding to basic amino acids). Solving the inverse problem using data on experimentally confirmed interacting pairs, we obtain the values of the parameters of the Potts model, which we then use to evaluate a new pair of MHC + peptide, and supplement this value with the input data of the neural network. This approach, combined with the ensemble construction technique, allows for improved prediction accuracy, in terms of the positive predictive value (PPV) metric, compared to the baseline model.

  10. Чувилин К.В.
    Эффективный алгоритм сравнения документов в формате ${\mathrm{\LaTeX}}$
    Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 329-345

    Рассматривается задача построения различий, возникающих при редактировании документов в формате ${\mathrm{\LaTeX}}$. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang–Shasha.

    Chuvilin K.V.
    An efficient algorithm for ${\mathrm{\LaTeX}}$ documents comparing
    Computer Research and Modeling, 2015, v. 7, no. 2, pp. 329-345

    The problem is constructing the differences that arise on ${\mathrm{\LaTeX}}$ documents editing. Each document is represented as a parse tree whose nodes are called tokens. The smallest possible text representation of the document that does not change the syntax tree is constructed. All of the text is splitted into fragments whose boundaries correspond to tokens. A map of the initial text fragment sequence to the similar sequence of the edited document corresponding to the minimum distance is built with Hirschberg algorithm A map of text characters corresponding to the text fragment sequences map is cunstructed. Tokens, that chars are all deleted, or all inserted, or all not changed, are selected in the parse trees. The map for the trees formed with other tokens is built using Zhang–Shasha algorithm.

    Просмотров за год: 2. Цитирований: 2 (РИНЦ).
Страницы: следующая

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал входит в Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук ВАК, группы специальностей: 01.01.00, 01.02.00.
 

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Журнал индексируется в Scopus