Текущий выпуск Номер 1, 2026 Том 18

Все выпуски

Результаты поиска по 'анализ текста':
Найдено статей: 22
  1. От редакции
    Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 673-675
    Просмотров за год: 1.
  2. От редакции
    Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 689-692
  3. От редакции
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 5-8
  4. От редакции
    Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 259-261
  5. От редакции
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1261-1264
  6. От редакции
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1097-1100
  7. От редакции
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 999-1002
  8. Антипова С.А., Журкин А.М.
    Ресурсно-адаптивный подход к разметке текстовых данных в структурированном виде с использованием малых языковых моделей
    Компьютерные исследования и моделирование, 2026, т. 18, № 1, с. 41-59

    В данной работе проведено экспериментальное исследование применения автоматической разметки текстовых данных в формате «вопрос – ответ» (QA-пары) в условиях ограниченных вычислительных ресурсов и требований к защите данных. В отличие от традиционных подходов, основанных на жестких правилах или использовании внешних API, предложено применять малые языковые модели с небольшим количеством параметров, способные функционировать локально без GPU на стандартных CPU-системах. Для тестирования были выбраны две модели: Gemma-3-4b и Qwen-2.5-3b (квантованные 4-битные версии), а в качестве исходного материала использован корпус документов с четкой структурой и формально-строгим стилем изложения. Разработана система автоматической аннотации, реализующая полный цикл генерации QA-датасета: автоматическое разбиение исходного документа на логически связные фрагменты, формирование пар «вопрос – ответ» моделью Gemma-3-4b, предварительная проверка их корректности с использованием Qwen-2.5-3b с опорой на доказательный фрагмент из контекста и экспертной оценкой качества. Экспорт полученных результатов предоставляется в формате JSONL. Оценка производительности охватывает всю систему генерации QA-пар, включая обработку фрагментов локальной языковой моделью, модули предобработки и постобработки текста. Производительность измеряется по времени генерации одной QA-пары, общей пропускной способности системы, использованию оперативной памяти и загрузке процессора, что позволяет объективно оценить вычислительную эффективность предлагаемого подхода при запуске на CPU. Эксперимент на расширенной выборке из 12 документов показал, что автоматическая аннотация демонстрирует устойчивую производительность при обработке документов различных типов, тогда как ручная разметка характеризуется существенно большими временными затратами и высокой вариативностью. В зависимости от типа документа ускорение аннотации по сравнению с ручным процессом составляет от 8 до 14 раз. Анализ качества показал, что большинство сгенерированных QA-пар обладают высокой семантической согласованностью с исходным контекстом, при этом лишь ограниченная доля данных требует экспертной корректировки или исключения. Хотя полная ручная валидация корпуса (золотой стандарт) в рамках работы не проводилась, сочетание автоматической оценки и выборочной экспертной проверки позволяет рассматривать полученный уровень качества как приемлемый для задач предварительной автоматизированной аннотации. В целом результаты подтверждают практическую применимость малых языковых моделей для построения автономных и воспроизводимых систем автоматической разметки текстов в условиях ограниченных вычислительных ресурсов и создают основу для дальнейших исследований в области эффективной подготовки обучающих корпусов для задач обработки естественного языка.

  9. Кочергин А.В., Холматова З.Ш.
    Извлечение персонажей и событий из повествований
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1593-1600

    Извлечение событий и персонажей из повествований является фундаментальной задачей при анализе и обработке текста на естественном языке. Методы извлечения событий применяются в самых разных областях — от обобщения различных документов до анализа медицинских записей. Мы определяли события на основе структуры под названием «четыре W» (кто, что, когда, где), чтобы охватить все основные компоненты событий, такие как действующие лица, действия, время и места. В этой статье мы рассмотрели два основных метода извлечения событий: статистический анализ синтаксических деревьев и семантическая маркировка ролей. Хотя эти методы были изучены разными исследователями по отдельности, мы напрямую сравнили эффективность двух подходов на собранном нами наборе данных, который мы разметили.

    Наш анализ показал, что статистический анализ синтаксических деревьев превосходит семантическую маркировку ролей при выделении событий и символов, особенно при определении конкретных деталей. Тем не менее, семантическая маркировка ролей продемонстрировала хорошую эффективность при правильной идентификации действующих лиц. Мы оценили эффективность обоих подходов, сравнив различные показатели, такие как точность, отзывчивость и F1-баллы, продемонстрировав, таким образом, их соответствующие преимущества и ограничения.

    Более того, в рамках нашей работы мы предложили различные варианты применения методов извлечения событий, которые мы планируем изучить в дальнейшем. Области, в которых мы хотим применить эти методы, включают анализ кода и установление авторства исходного кода. Мы рассматриваем возможность использования методов извлечения событий для определения ключевых элементов кода в виде назначений переменных и вызовов функций, что в дальнейшем может помочь ученым проанализировать поведение программ и определить участников проекта. Наша работа дает новое понимание эффективности статистического анализа и методов семантической маркировки ролей, предлагая исследователям новые направления для применения этих методов.

  10. В данной статье исследуется эффективность применения технологии Retrieval-Augmented Generation (RAG) в сочетании с различными большими языковыми моделями (LLM) для поиска документов и получения информации в корпоративных информационных системах. Рассматриваются варианты использования LLM в корпоративных системах, архитектура RAG, характерные проблемы интеграции LLM в RAG-систему. Предлагается архитектура системы, включающая в себя векторный энкодер текстов и LLM. Энкодер используется для создания векторной базы данных, индексирующей библиотеку корпоративных документов. Запрос, передаваемый LLM, дополняется релевантным ему контекстом из библиотеки корпоративных документов, извлекаемым с использованием векторной базы данных и библиотеки FAISS. Большая языковая модель принимает запрос пользователя и формирует ответ на основе переданных в контексте запроса данных. Рассматриваются общая структура и алгоритм функционирования предлагаемого решения, реализующего архитектуру RAG. Обосновывается выбор LLM для исследования и проводится анализ результативности использования популярных LLM (ChatGPT, GigaChat, YandexGPT, Llama, Mistral, Qwen и др.) в качестве компонента для генерации ответов. На основе тестового набора вопросов методом экспертных оценок оцениваются точность, полнота, грамотность и лаконичность ответов, предоставляемых рассматриваемыми моделями. Анализируются характеристики отдельных моделей, полученные в результате исследования. Приводится информация о средней скорости отклика моделей. Отмечается существенное влияние объема доступной памяти графического адаптера на производительность локальных LLM. На основе интегрального показателя качества формируется общий рейтинг LLM. Полученные результаты подтверждают эффективность предложенной архитектуры RAG для поиска документов и получения информации в корпоративных информационных системах. Были определены возможные направления дальнейших исследований в этой области: дополнение контекста, передаваемого LLM, и переход к архитектуре на базе LLM-агентов. В заключении представлены рекомендации по выбору оптимальной конфигурации RAG и LLM для построения решений, обеспечивающих быстрый и точный доступ к информации в рамках корпоративных информационных систем.

Страницы: следующая последняя »

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.