Текущий выпуск Номер 5, 2024 Том 16

Все выпуски

Результаты поиска по 'контентная аутентичность':
Найдено статей: 1
  1. Игнатьев Н.А., Тулиев У.Ю.
    Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197

    Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.

    Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.

    Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.

    Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.

    Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.

    Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.

    Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.