Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.
Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.
Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.
Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.
Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.
Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.
Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.
-
Ранговый анализ уголовных кодексов Российской Федерации, Федеративной Республики Германия и Китайской Народной Республики
Компьютерные исследования и моделирование, 2022, т. 14, № 4, с. 969-981При принятии решения в различных областях человеческой деятельности часто требуется создавать текстовые документы. Традиционно изучением текстов занимается лингвистика, которая в широком смысле может пониматься как часть семиотики — науки о знаках и знаковых системах, при этом семиотические объекты бывают разных типов. Для количественного исследования знаковых систем широко используется метод ранговых распределений. Ранговое распределение — упорядоченная в порядке убывания по частоте появления совокупность наименований элементов. Для частотно-ранговых распределений исследователи часто используют название рower-law distributions.
В данной работе метод ранговых распределений применяется для анализа Уголовного кодекса различных стран. Общая идея подхода при решении этой задачи состоит в рассмотрении кодекса как текстового документа, в котором знаком является мера наказания за отдельные преступления. Документ представляется как список вхождений некоторого слова (знака), а также всех его производных (словоформ). Совокупность всех этих знаков образует словарь наказаний, для которого выполняется подсчет частоты встречаемости каждой меры наказания в тексте кодекса. Это позволяет преобразовать построенный словарь в частотный словарь наказаний, для дальнейшего исследования которого используются подход В. П. Маслова, предложенный им к анализу задач лингвистики. Этот подход состоит в введении понятия виртуальной частоты встречаемости преступления, которая является мерой оценки не только реального вреда для общества, но и последствий совершенного преступления в различных сферах жизни человека. На этом пути в работе предлагается параметризация рангового распределения для анализа словаря наказаний Особенной части Уголовного кодекса Российской Федерации, касающейся наказаний за экономические преступления. Рассмотрены различные редакции кодекса и показано, что построенная модель объективно отражает его изменения в лучшую сторону, вносимые законодателями с течением времени. Были исследованы тексты, включающие сходные по составу преступления, аналогичные российскому специальному разделу Особенной части, для Уголовных кодексов, действующих в Федеративной Республике Германия и Китайской Народной Республике. Полученные в статье ранговые распределения для соответствующих частотных словарей кодексов совпадают с полученным В. П. Масловым законом, существенно уточняющим закон Ципфа. Это позволяет сделать вывод как о хорошей организации текста, так и об адекватности выбранного наказания для преступлений.
Ключевые слова: Уголовный кодекс, ранговое распределение, степенное распределение, виртуальная частота, закон Маслова.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"