Текущий выпуск Номер 5, 2025 Том 17

Все выпуски

Результаты поиска по 'извлечение информации':
Найдено статей: 6
  1. От редакции
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1097-1100
  2. От редакции
    Компьютерные исследования и моделирование, 2022, т. 14, № 6, с. 1217-1219
  3. От редакции
    Компьютерные исследования и моделирование, 2025, т. 17, № 5, с. 757-760
  4. В данной статье исследуется эффективность применения технологии Retrieval-Augmented Generation (RAG) в сочетании с различными большими языковыми моделями (LLM) для поиска документов и получения информации в корпоративных информационных системах. Рассматриваются варианты использования LLM в корпоративных системах, архитектура RAG, характерные проблемы интеграции LLM в RAG-систему. Предлагается архитектура системы, включающая в себя векторный энкодер текстов и LLM. Энкодер используется для создания векторной базы данных, индексирующей библиотеку корпоративных документов. Запрос, передаваемый LLM, дополняется релевантным ему контекстом из библиотеки корпоративных документов, извлекаемым с использованием векторной базы данных и библиотеки FAISS. Большая языковая модель принимает запрос пользователя и формирует ответ на основе переданных в контексте запроса данных. Рассматриваются общая структура и алгоритм функционирования предлагаемого решения, реализующего архитектуру RAG. Обосновывается выбор LLM для исследования и проводится анализ результативности использования популярных LLM (ChatGPT, GigaChat, YandexGPT, Llama, Mistral, Qwen и др.) в качестве компонента для генерации ответов. На основе тестового набора вопросов методом экспертных оценок оцениваются точность, полнота, грамотность и лаконичность ответов, предоставляемых рассматриваемыми моделями. Анализируются характеристики отдельных моделей, полученные в результате исследования. Приводится информация о средней скорости отклика моделей. Отмечается существенное влияние объема доступной памяти графического адаптера на производительность локальных LLM. На основе интегрального показателя качества формируется общий рейтинг LLM. Полученные результаты подтверждают эффективность предложенной архитектуры RAG для поиска документов и получения информации в корпоративных информационных системах. Были определены возможные направления дальнейших исследований в этой области: дополнение контекста, передаваемого LLM, и переход к архитектуре на базе LLM-агентов. В заключении представлены рекомендации по выбору оптимальной конфигурации RAG и LLM для построения решений, обеспечивающих быстрый и точный доступ к информации в рамках корпоративных информационных систем.

  5. Мусаев А.А., Григорьев Д.А.
    Обзор современных технологий извлечения знаний из текстовых сообщений
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315

    Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.

  6. Сокрытие информации в цифровых изображениях является перспективным направлением кибербезопасности. Методы стеганографии обеспечивают незаметную передачу данных по открытому каналу связи втайне от злоумышленника. Эффективность встраивания информации зависит от того, насколько незаметным и робастным является скрытое вложение, а также от емкости встраивания. Однако показатели качества встраивания являются взаимно обратными и улучшение значения одного из них обычно приводит к ухудшению остальных. Баланс между ними может быть достигнут с помощью применения метаэвристической оптимизации. Метаэвристики позволяют находить оптимальные или близкие к ним решения для многих задач, в том числе трудно формализуемых, моделируя разные природные процессы, например эволюцию видов или поведение животных. В этой статье предлагается новый подход к сокрытию данных в гибридном пространственно-частотном домене цифровых изображений на основе метаэвристической оптимизации. В качестве операции встраивания выбрано изменение блока пикселей изображения в соответствии с некоторой матрицей изменений. Матрица изменений выбирается адаптивно для каждого блока с помощью алгоритмов метаэвристической оптимизации. В работе сравнивается эффективность трех метаэвристик, таких как генетический алгоритм (ГА), оптимизация роя частиц (ОРЧ) и дифференциальная эволюция (ДЭ), для поиска лучшей матрицы изменений. Результаты экспериментов показывают, что новый подход обеспечивает высокую незаметность встраивания, высокую емкость и безошибочное извлечение встроенной информации. При этом хранение и передача матриц изменений для каждого блока не требуются для извлечения данных, что уменьшает вероятность обнаружения скрытого вложения злоумышленником. Метаэвристики обеспечили прирост показателей незаметности и емкости по сравнению с предшествующим алгоритмом встраивания данных в коэффициенты дискретного косинусного преобразования по методу QIM [Evsutin, Melman, Meshcheryakov, 2021] соответственно на 26,02% и 30,18% для ГА, на 26,01% и 19,39% для ОРЧ, на 27,30% и 28,73% для ДЭ.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.