Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Молодость. Вечность. Синергетика
Компьютерные исследования и моделирование, 2017, т. 9, № 3, с. 361-378Просмотров за год: 16. Цитирований: 1 (РИНЦ).Очень приятно вспоминать и рассказывать о выдающемся ученом, замечательном человеке, блестящем преподавателе, основоположнике нескольких научных направлений Дмитрии Сергеевиче Чернавском. Наверно, при этом подсознательно надеешься, что это поможет слушателям, читателям, коллегам, близким и дальним. Одним — увидеть в себе и развить черты, которыми обладал этот прекрасный человек. Другим — ответить на вопросы, которые он оставил нам. Третьим — порадоваться, что в нашем научном сообществе был человек, который творил, вдохновлял, помогал, заряжал своим оптимизмом и верой в знание, в людей, в перемены к лучшему и надеждой, что будущее состоится. Мне довелось дважды писать о Дмитрии Сергеевиче: один раз — в послесловии к его замечательной книге «Синергетика и информация» [Чернавский, 2004], второй раз — веселый текст к его 90-летию, дополненный коллегами и опубликованный в журнале «Компьютерные исследования и моделирование» в 2016 году [Профессору Дмитрию Чернавскому — 90 лет, 2016]. И сейчас пишу в третий раз — со светлой грустью и сожалением о том, что мгновения общения с ним, его вдохновенные выступления, праздничные застолья, на которых за сиюминутным угадывалось вечное, не остановить и не повторить. Без прошлого нет будущего. Без попыток следующих поколений вновь и вновь ответить на вечные вопросы, оставленные предшественниками, рвется «времен связующая нить». Без традиции трудно родиться новому… Поэтому прошлое, даже недавнее, стоит вспоминать, чтобы отыскать дорогу в будущее.
-
Задачи и методы автоматического построения графа цитирований по коллекции научных документов
Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 707-719Задача автоматического построения графа цитирования по коллекции научных документов сводится к решению последовательности задач распознавания. Рассматриваются методы решения, их адаптация и объединение в технологическую цепочку, приводятся результаты вычислительных экспериментов для некоторых задач.
Ключевые слова: компьютерныйана лиз текстов, граф цитирований, библиография, метаописания, мэтчинг, связывание, разметка, сегментация.Просмотров за год: 5. Цитирований: 1 (РИНЦ). -
Метод контрастного семплирования для предсказания библиографических ссылок
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1317-1336В работе рассматривается задача поиска в научной статье фрагментов с недостающими библиографическими ссылками с помощью автоматической бинарной классификации. Для обучения модели предложен метод контрастного семплирования, новшеством которого является рассмотрение контекста ссылки с учетом границ фрагмента, максимально влияющего на вероятность нахождения в нем библиографической ссылки. Обучающая выборка формировалась из автоматически размеченных семплов — фрагментов из трех предложений с метками классов «без ссылки» и «со ссылкой», удовлетворяющих требованию контрастности: семплы разных классов дистанцируются в исходном тексте. Пространство признаков строилось автоматически по статистике встречаемости термов и расширялось за счет конструирования дополнительных признаков — выделенных в тексте сущностей ФИО, чисел, цитат и аббревиатур.
Проведена серия экспериментов на архивах научных журналов «Правоприменение» (273 статьи) и «Журнал инфектологии» (684 статьи). Классификация осуществлялась моделями Nearest Neighbours, RBF SVM, Random Forest, Multilayer Perceptron, с подбором оптимальных гиперпараметров для каждого классификатора.
Эксперименты подтвердили выдвинутую гипотезу. Наиболее высокую точность показал нейросетевой классификатор (95%), уступающий по скорости линейному, точность которого при контрастном семплировании также оказалась высока (91–94 %). Полученные значения превосходят результаты, опубликованные для задач NER и анализа тональности на данных со сравнимыми характеристиками. Высокая вычислительная эффективность предложенного метода позволяет встраивать его в прикладные системы и обрабатывать документы в онлайн-режиме.
-
Статистический анализ биграмм специализированных текстов
Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.
Ключевые слова: стохастическая матрица, спектральный портрет, статистический индикатор, научный текст. -
Сравнительный анализ статистических методов классификации научных публикаций в области медицины
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 921-933В работе проведено сравнение различных методов машинной классификации научных текстов по тематическим разделам на примере публикаций в профильных медицинских журналах, выпускаемых издательством Springer. Исследовался корпус текстов по пяти разделам: фармакология/токсикология, кардиология, иммунология, неврология и онкология. Рассматривались как методы поверхностной классификации, основанные на анализе аннотаций и ключевых слов, так и методы классификации на основе обработки собственно текстов. Были применены методы байесовской классификации, опорных векторов и эталонных буквосочетаний. Показано, что наилучшую точность имеет метод классификации на основе создания библиотеки эталонов буквенных триграмм, отвечающих текстам определенной тематики, а семантические методы уступают ему по точности. Выяснилось, что применительно к рассматриваемому корпусу текстов байесовский метод дает ошибку порядка 20 %, метод опорных векторов имеет ошибку порядка 10 %, а метод близости распределения текста к трехбуквенному эталону тематики дает ошибку порядка 5 %, что позволяет ранжировать эти методы для использования искусственного интеллекта в задачах классификации текстов по отраслевым специальностям. Существенно, что при анализе аннотаций метод опорных векторов дает такую же точность, что и при анализе полных текстов, что важно для сокращения числа операций для больших корпусов текстов.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"