Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
-
К вопросу выбора структуры многофакторной регрессионной модели на примере анализа факторов выгорания творческих работников
Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 265-274В статье обсуждается проблема влияния целей исследования на структуру многофакторной модели регрессионного анализа (в частности, на реализацию процедуры снижения размерности модели). Демонстрируется, как приведение спецификации модели множественной регрессии в соответствие целям исследования отражается на выборе методов моделирования. Сравниваются две схемы построения модели: первая не позволяет учесть типологию первичных предикторов и характер их влияния на результативные признаки, вторая схема подразумевает этап предварительного разбиения исходных предикторов на группы (в соответствии с целями исследования). На примере решения задачи анализа причин выгорания творческих работников показана важность этапа качественного анализа и систематизации априори отобранных факторов, который реализуется не вычислительными средствами, а за счет привлечения знаний и опыта специалистов в изучаемой предметной области.
Представленный пример реализации подхода к определению спецификации регрессионной модели сочетает формализованные математико-статистические процедуры и предшествующий им этап классификации первичных факторов. Наличие указанного этапа позволяет объяснить схему управляющих (корректирующих) воздействий (смягчение стиля руководства и усиление одобрения приводят к снижению проявлений тревожности и стресса, что, в свою очередь, снижает степень выраженности эмоционального истощения участников коллектива). Предварительная классификация также позволяет избежать комбинирования в одной главной компоненте управляемых и неуправляемых, регулирующих и управляемых признаков-факторов, которое могло бы ухудшить интерпретируемость синтезированных предикторов.
На примере конкретной задачи показано, что отбор факторов-регрессоров — это процесс, требующий индивидуального решения. В рассмотренном случае были последовательно использованы: систематизация признаков, корреляционный анализ, метод главных компонент, регрессионный анализ. Первые три метода позволили существенно сократить размерность задачи, что не повлияло на достижение цели, для которой эта задача была поставлена: были показаны существенные меры управляющего воздействия на коллектив, позволяющие снизить степень эмоционального выгорания его участников.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"