Текущий выпуск Номер 1, 2026 Том 18

Все выпуски

Результаты поиска по 'text analysis':
Найдено статей: 22
  1. Ирхин И.А., Булатов В.Г., Воронцов К.В.
    Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1515-1528

    text-align: justify;">Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытымк одомB igARTM и TopicNet.

    Irkhin I.A., Bulatov V.G., Vorontsov K.V.
    Additive regularizarion of topic models with fast text vectorizartion
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1515-1528

    text-align: justify;">The probabilistic topic model of a text document collection finds two matrices: a matrix of conditional probabilities of topics in documents and a matrix of conditional probabilities of words in topics. Each document is represented by a multiset of words also called the “bag of words”, thus assuming that the order of words is not important for revealing the latent topics of the document. Under this assumption, the problem is reduced to a low-rank non-negative matrix factorization governed by likelihood maximization. In general, this problem is ill-posed having an infinite set of solutions. In order to regularize the solution, a weighted sum of optimization criteria is added to the log-likelihood. When modeling large text collections, storing the first matrix seems to be impractical, since its size is proportional to the number of documents in the collection. At the same time, the topical vector representation (embedding) of documents is necessary for solving many text analysis tasks, such as information retrieval, clustering, classification, and summarization of texts. In practice, the topical embedding is calculated for a document “on-the-fly”, which may require dozens of iterations over all the words of the document. In this paper, we propose a way to calculate a topical embedding quickly, by one pass over document words. For this, an additional constraint is introduced into the model in the form of an equation, which calculates the first matrix from the second one in linear time. Although formally this constraint is not an optimization criterion, in fact it plays the role of a regularizer and can be used in combination with other regularizers within the additive regularization framework ARTM. Experiments on three text collections have shown that the proposed method improves the model in terms of sparseness, difference, logLift and coherence measures of topic quality. The open source libraries BigARTM and TopicNet were used for the experiments.

  2. Гузев М.А., Никитина Е.Ю.
    Ранговый анализ уголовных кодексов Российской Федерации, Федеративной Республики Германия и Китайской Народной Республики
    Компьютерные исследования и моделирование, 2022, т. 14, № 4, с. 969-981

    text-align: justify;">При принятии решения в различных областях человеческой деятельности часто требуется создавать текстовые документы. Традиционно изучением текстов занимается лингвистика, которая в широком смысле может пониматься как часть семиотики — науки о знаках и знаковых системах, при этом семиотические объекты бывают разных типов. Для количественного исследования знаковых систем широко используется метод ранговых распределений. Ранговое распределение — упорядоченная в порядке убывания по частоте появления совокупность наименований элементов. Для частотно-ранговых распределений исследователи часто используют название рower-law distributions.

    text-align: justify;">В данной работе метод ранговых распределений применяется для анализа Уголовного кодекса различных стран. Общая идея подхода при решении этой задачи состоит в рассмотрении кодекса как текстового документа, в котором знаком является мера наказания за отдельные преступления. Документ представляется как список вхождений некоторого слова (знака), а также всех его производных (словоформ). Совокупность всех этих знаков образует словарь наказаний, для которого выполняется подсчет частоты встречаемости каждой меры наказания в тексте кодекса. Это позволяет преобразовать построенный словарь в частотный словарь наказаний, для дальнейшего исследования которого используются подход В. П. Маслова, предложенный им к анализу задач лингвистики. Этот подход состоит в введении понятия виртуальной частоты встречаемости преступления, которая является мерой оценки не только реального вреда для общества, но и последствий совершенного преступления в различных сферах жизни человека. На этом пути в работе предлагается параметризация рангового распределения для анализа словаря наказаний Особенной части Уголовного кодекса Российской Федерации, касающейся наказаний за экономические преступления. Рассмотрены различные редакции кодекса и показано, что построенная модель объективно отражает его изменения в лучшую сторону, вносимые законодателями с течением времени. Были исследованы тексты, включающие сходные по составу преступления, аналогичные российскому специальному разделу Особенной части, для Уголовных кодексов, действующих в Федеративной Республике Германия и Китайской Народной Республике. Полученные в статье ранговые распределения для соответствующих частотных словарей кодексов совпадают с полученным В. П. Масловым законом, существенно уточняющим закон Ципфа. Это позволяет сделать вывод как о хорошей организации текста, так и об адекватности выбранного наказания для преступлений.

    Guzev M.A., Nikitina E.Yu.
    Rank analysis of the criminal codes of the Russian Federation, the Federal Republic of Germany and the People’s Republic of China
    Computer Research and Modeling, 2022, v. 14, no. 4, pp. 969-981

    text-align: justify;">When making decisions in various fields of human activity, it is often required to create text documents. Traditionally, the study of texts is engaged in linguistics, which in a broad sense can be understood as a part of semiotics — the science of signs and sign systems, while semiotic objects are of different types. The method of rank distributions is widely used for the quantitative study of sign systems. Rank distribution is a set of item names sorted in descending order by frequency of occurrence. For frequency-rank distributions, researchers often use the term «power-law distributions».

    text-align: justify;">In this paper, the rank distribution method is used to analyze the Criminal Code of various countries. The general idea of the approach to solving this problem is to consider the code as a text document, in which the sign is the measure of punishment for certain crimes. The document is presented as a list of occurrences of a specific word (character) and its derivatives (word forms). The combination of all these signs characters forms a punishment dictionary, for which the occurrence frequency of each punishment in the code text is calculated. This allows us to transform the constructed dictionary into a frequency dictionary of punishments and conduct its further research using the V. P. Maslov approach, proposed to analyze the linguistics problems. This approach introduces the concept of the virtual frequency of crime occurrence, which is an assessment measure of the real harm to society and the consequences of the crime committed in various spheres of human life. On this path, the paper proposes a parametrization of the rank distribution to analyze the punishment dictionary of the Special Part of the Criminal Code of the Russian Federation concerning punishments for economic crimes. Various versions of the code are considered, and the constructed model was shown to reflect objectively undertaken over time by legislators its changes for the better. For the Criminal Codes in force in the Federal Republic of Germany and the People’s Republic of China, the texts including similar offenses and analogous to the Russian special section of the Special Part were studied. The rank distributions obtained in the article for the corresponding frequency dictionaries of codes coincide with those obtained by V. P. Maslov’s law, which essentially clarifies Zipf’s law. This allows us to conclude both the good text organization and the adequacy of the selected punishments for crimes.

Страницы: « первая предыдущая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.