Текущий выпуск Номер 3, 2025 Том 17

Все выпуски

Результаты поиска по 'parse tree':
Найдено статей: 4
  1. От редакции
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1533-1538
    Editor’s note
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1533-1538
  2. Кочергин А.В., Холматова З.Ш.
    Извлечение персонажей и событий из повествований
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1593-1600

    Извлечение событий и персонажей из повествований является фундаментальной задачей при анализе и обработке текста на естественном языке. Методы извлечения событий применяются в самых разных областях — от обобщения различных документов до анализа медицинских записей. Мы определяли события на основе структуры под названием «четыре W» (кто, что, когда, где), чтобы охватить все основные компоненты событий, такие как действующие лица, действия, время и места. В этой статье мы рассмотрели два основных метода извлечения событий: статистический анализ синтаксических деревьев и семантическая маркировка ролей. Хотя эти методы были изучены разными исследователями по отдельности, мы напрямую сравнили эффективность двух подходов на собранном нами наборе данных, который мы разметили.

    Наш анализ показал, что статистический анализ синтаксических деревьев превосходит семантическую маркировку ролей при выделении событий и символов, особенно при определении конкретных деталей. Тем не менее, семантическая маркировка ролей продемонстрировала хорошую эффективность при правильной идентификации действующих лиц. Мы оценили эффективность обоих подходов, сравнив различные показатели, такие как точность, отзывчивость и F1-баллы, продемонстрировав, таким образом, их соответствующие преимущества и ограничения.

    Более того, в рамках нашей работы мы предложили различные варианты применения методов извлечения событий, которые мы планируем изучить в дальнейшем. Области, в которых мы хотим применить эти методы, включают анализ кода и установление авторства исходного кода. Мы рассматриваем возможность использования методов извлечения событий для определения ключевых элементов кода в виде назначений переменных и вызовов функций, что в дальнейшем может помочь ученым проанализировать поведение программ и определить участников проекта. Наша работа дает новое понимание эффективности статистического анализа и методов семантической маркировки ролей, предлагая исследователям новые направления для применения этих методов.

    Kochergin A.V., Kholmatova Z.Sh.
    Extraction of characters and events from narratives
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1593-1600

    Events and character extraction from narratives is a fundamental task in text analysis. The application of event extraction techniques ranges from the summarization of different documents to the analysis of medical notes. We identify events based on a framework named “four W” (Who, What, When, Where) to capture all the essential components like the actors, actions, time, and places. In this paper, we explore two prominent techniques for event extraction: statistical parsing of syntactic trees and semantic role labeling. While these techniques were investigated by different researchers in isolation, we directly compare the performance of the two approaches on our custom dataset, which we have annotated.

    Our analysis shows that statistical parsing of syntactic trees outperforms semantic role labeling in event and character extraction, especially in identifying specific details. Nevertheless, semantic role labeling demonstrate good performance in correct actor identification. We evaluate the effectiveness of both approaches by comparing different metrics like precision, recall, and F1-scores, thus, demonstrating their respective advantages and limitations.

    Moreover, as a part of our work, we propose different future applications of event extraction techniques that we plan to investigate. The areas where we want to apply these techniques include code analysis and source code authorship attribution. We consider using event extraction to retrieve key code elements as variable assignments and function calls, which can further help us to analyze the behavior of programs and identify the project’s contributors. Our work provides novel understandings of the performance and efficiency of statistical parsing and semantic role labeling techniques, offering researchers new directions for the application of these techniques.

  3. Чувилин К.В.
    Эффективный алгоритм сравнения документов в формате ${\mathrm{\LaTeX}}$
    Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 329-345

    Рассматривается задача построения различий, возникающих при редактировании документов в формате ${\mathrm{\LaTeX}}$. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang–Shasha.

    Chuvilin K.V.
    An efficient algorithm for ${\mathrm{\LaTeX}}$ documents comparing
    Computer Research and Modeling, 2015, v. 7, no. 2, pp. 329-345

    The problem is constructing the differences that arise on ${\mathrm{\LaTeX}}$ documents editing. Each document is represented as a parse tree whose nodes are called tokens. The smallest possible text representation of the document that does not change the syntax tree is constructed. All of the text is splitted into fragments whose boundaries correspond to tokens. A map of the initial text fragment sequence to the similar sequence of the edited document corresponding to the minimum distance is built with Hirschberg algorithm A map of text characters corresponding to the text fragment sequences map is cunstructed. Tokens, that chars are all deleted, or all inserted, or all not changed, are selected in the parse trees. The map for the trees formed with other tokens is built using Zhang–Shasha algorithm.

    Просмотров за год: 2. Цитирований: 2 (РИНЦ).
  4. Чувилин К.В.
    Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883

    Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.

    Chuvilin K.V.
    The use of syntax trees in order to automate the correction of LaTeX documents
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 871-883

    The problem is to automate the correction of LaTeX documents. Each document is represented as a parse tree. The modified Zhang-Shasha algorithm is used to construct a mapping of tree vertices of the original document to the tree vertices of the edited document, which corresponds to the minimum editing distance. Vertex to vertex maps form the training set, which is used to generate rules for automatic correction. The statistics of the applicability to the edited documents is collected for each rule. It is used for quality assessment and improvement of the rules.

    Цитирований: 5 (РИНЦ).

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.