Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX

Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.

Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, обучение с подкреплением, регулярное выражение, редактирующее расстояние, синтаксическое дерево, токен, LaTeX
Цитата: Чувилин К.В. Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX // Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883
Citation in English: Chuvilin K.V. The use of syntax trees in order to automate the correction of LaTeX documents // Computer Research and Modeling, 2012, vol. 4, no. 4, pp. 871-883
Creative Commons License
Статья доступна по лицензии Creative Commons Attribution-NoDerivs 3.0 Unported License.

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал входит в Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук ВАК, группы специальностей: 01.01.00, 01.02.00.
 

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Журнал индексируется в Scopus