Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
-
Сравнительный анализ статистических методов классификации научных публикаций в области медицины
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 921-933В работе проведено сравнение различных методов машинной классификации научных текстов по тематическим разделам на примере публикаций в профильных медицинских журналах, выпускаемых издательством Springer. Исследовался корпус текстов по пяти разделам: фармакология/токсикология, кардиология, иммунология, неврология и онкология. Рассматривались как методы поверхностной классификации, основанные на анализе аннотаций и ключевых слов, так и методы классификации на основе обработки собственно текстов. Были применены методы байесовской классификации, опорных векторов и эталонных буквосочетаний. Показано, что наилучшую точность имеет метод классификации на основе создания библиотеки эталонов буквенных триграмм, отвечающих текстам определенной тематики, а семантические методы уступают ему по точности. Выяснилось, что применительно к рассматриваемому корпусу текстов байесовский метод дает ошибку порядка 20 %, метод опорных векторов имеет ошибку порядка 10 %, а метод близости распределения текста к трехбуквенному эталону тематики дает ошибку порядка 5 %, что позволяет ранжировать эти методы для использования искусственного интеллекта в задачах классификации текстов по отраслевым специальностям. Существенно, что при анализе аннотаций метод опорных векторов дает такую же точность, что и при анализе полных текстов, что важно для сокращения числа операций для больших корпусов текстов.
-
Интерактивный инструментарий для распределенных телемедицинских систем
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 521-527Просмотров за год: 3. Цитирований: 4 (РИНЦ).Для жителей удалённых районов часто может составлять проблему прохождение квалифицированного медицинского обследования. Доступный медицинский персонал может отсутствовать или не обладать экспертными знаниями достаточного уровня. Помочь в такой ситуации могут телемедицинские технологии. С одной стороны, такие технологии позволяют врачам высокой квалификации оказывать удалённые консультации, повышая тем самым качество постановки диагноза и составления плана лечения. С другой стороны, средства автоматизированного анализа результатов проведённых исследований, анамнеза и информации об аналогичных случаях помогают облегчить выполнение рутинных действий и оказать медицинскому персоналу поддержу в принятии решений.
Создание телемедицинской системы для конкретной предметной области — это трудоёмкий процесс. Не достаточно подобать подходящих специалистов и заполнить базу знаний аналитического модуля. Необходимо также организовать всю инфраструктуру системы, удовлетворяя предъявляемые требования по надёжности, отказоустойчивости, защите персональных данных и так далее. Снизить трудоёмкость разработки телемедицинских комплексов может инструментарий, содержащий многократно используемые инфраструктурные элементы, общие для систем такого рода.
В данной работе описан интерактивный инструментарий для создания распределённых телемедицинских систем. Приводится список требований, предъявляемый к получаемым системам, и архитектурные решения, позволяющие удовлетворить эти требования. В качестве примера применения созданного инструментария описывается кардиологическая телемедицинская система.
-
Естественные модели параллельных вычислений
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 781-785Курс «Естественные модели параллельных вычислений», читаемый студентам старших курсов факультета ВМК МГУ, посвящен рассмотрению вопросов суперкомпьютерной реализации естественных вычислительных моделей и является, по сути, введением в теорию естественных вычислений (natural computing) относительно нового раздела науки, образовавшегося на стыке математики, информатики и естественных наук (прежде всего биологии). Тематика естественных вычислений включает в себя как классические разделы, например клеточные автоматы, так и относительно новые, появившиеся в последние 10–20 лет, например методы роевого интеллекта. Несмотря на свое биологическое «происхождение», все эти модели находят широчайшее применение в областях, связанных с компьютерной обработкой данных. Исследования в области естественных вычислений также тесно связаны с вопросами и технологиями параллельных вычислений. Изложение теоретического материала курса сопровождается рассмотрением возможных схем распараллеливания вычислений, а в практической части курса предполагается выполнение студентами программной реализации рассматриваемых моделей с использованием технологии MPI и проведение численных экспериментов по исследованию эффективности выбранных схем распараллеливания вычислений.
Ключевые слова: естественные вычисления, эволюционные алгоритмы, искусственные биологические системы.Просмотров за год: 17. Цитирований: 2 (РИНЦ).
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"