Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Новый метод стилеметрии на основе статистики числительных
Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 837-850Предложен новый метод статистического анализа текстов. Исследовано распределение частот различных первых значащих цифр в числительных англоязычных текстов. Учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно. Предварительно из текста удаляются случайно попавшие в него числительные, не отражающие авторский замысел (номера страниц, маркеры списков, идиоматические выражения, устойчивые обороты речи и тому подобное). Обнаружено, что для сборных текстов разного авторства частоты первых значащих цифр приближенно соответствуют известному закону Бенфорда, но с резким преобладанием встречаемости единицы. В связных авторских текстах возникают характерные отклонения от закона Бенфорда; показано, что эти отклонения являются статистически устойчивыми и значимыми авторскими особенностями, позволяющими при определенных условиях ответить на вопрос об авторстве и различить тексты разных авторов. Требуется, чтобы текст был достаточно длинным (не менее чем порядка 200 кБ). Распределение первых значащих цифр конца ряда $\{1, 2, \ldots, 8, 9\}$ подвержено сильным флуктуациям и не показательно для нашей цели. Цель теоретического обоснования найденной эмпирической закономерности в работе не ставится, но продемонстрировано ее практическое использование для атрибуции текстов. Предлагаемый подход и сделанные выводы подкреплены примерами компьютерного анализа художественных текстов У. М. Теккерея, М. Твена, Р. Л. Стивенсона, Дж.Джойса, сестер Бронте, Дж.Остин. На основе разработанной методологии рассмотрены проблемы авторства текста, ранее приписывавшегося Л.Ф. Бауму (результат согласуется с полученным другими методами), а также известного романа Харпер Ли «Убить пересмешника»; показано, что к написанию первоначального варианта этой книги («Пойди, поставь сторожа») мог быть причастен Трумен Капоте, но финальный текст, вероятно, принадлежит Харпер Ли. Результаты подтверждены на основе параметрического критерия Пирсона, а также непараметрических U-критерия Манна–Уитни и критерия Крускала–Уоллиса.
Ключевые слова: атрибуция текстов, первая значащая цифра числительных.Просмотров за год: 10. -
Моделирование межрегиональных миграционных потоков клеточными автоматами
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1467-1483В статье исследуется проблема разработки и обоснования наиболее адекватного инструментария для прогнозирования величины и структуры межрегиональных миграционных потоков. Миграционные процессы оказывают значительное влияние на численность и демографическую структуру населения территорий, состояние и сбалансированность региональных и локальных рынков труда. Для анализа миграционных процессов и оценки их последствий необходим экономикоатематический инструментарий, позволяющий с необходимой точностью моделировать миграционные процессы и потоки для различных территорий. Рассмотрены существующие подходы и методы моделирования миграционных процессов с анализом их преимуществ и недостатков. Отмечается, что для реализации многих из этих методов необходим большой массив агрегированных статистических данных, который не всегда имеется в наличии и не характеризует поведение мигрантов на локальном уровне, на котором принимается решение о переезде на новое место жительства. Это существенно влияет на возможность применения соответствующих методов моделирования миграционных процессов и точность прогнозов величины и структуры миграционных потоков.
В работе разработана и апробирована на данных Приморского края модель клеточного автомата для моделирования межрегиональных миграционных потоков, реализующая интеграцию модели миграционного поведения домашних хозяйств в условиях ограниченной рациональности в общую модель миграционного потока территории. Для реализации модели миграционного поведения домашних хозяйств в условиях ограниченной рациональности предложен интегральный индекс привлекательности регионов с экономической, социальной и экологической составляющими. Для оценки прогностической способности разработанной модели проведено ее сравнение с существующими моделями клеточных автоматов, используемыми для прогнозирования межрегиональных миграционных потоков. Для этих целей был использован метод вневыборочного прогнозирования, который показал статистически значимое превосходство предложенной модели, которая позволяет получать прогнозы и количественные характеристики миграционных потоков территорий на основе реального миграционного поведения домашних хозяйств на локальном уровне с учетом условий их проживания и поведенческих мотивов.
Ключевые слова: миграционные потоки, модели, сравнительный анализ, клеточные автоматы, ограниченная рациональность, точность прогноза. -
Поиск точек разладки в биометрических данных: ретроспективные непараметрические методы сегментации на основе динамического программирования и скользящих окон
Компьютерные исследования и моделирование, 2024, т. 16, № 5, с. 1295-1321Работа посвящена анализу медико-биологических данных, получаемых с помощью локомоторных тренировок и тестирований космонавтов, проводимых как на Земле, так и во время полета. Данные эксперименты можно описать как движение космонавта по беговой дорожке согласно прописанному регламенту в различных скоростных режимах, во время которых не только записывается скорость, но и собирается ряд показателей, включающих частоту сердечных сокращений, величину давления на опору и пр. С целью анализа динамики состояния космонавта на протяжении длительного времени, для независимой оценки целевых показателей необходимо проводить качественную сегментацию режимов его движения. Особую актуальность данная задача приобретает при разработке автономной системы жизнеобеспечения космонавтов, которая будет действовать без сопровождения персонала с Земли. При сегментации целевых данных сложность заключается в наличии различных аномалий, включая отход испытуемого от заранее прописанного регламента, переходы между режимами движения произвольного вида и длительности, аппаратные сбои и пр. Статья включает в себя подробный обзор ряда современных ретроспективных (оффлайн) непараметрических методов поиска многократных разладок во временном ряде, где под разладкой понимается резкое изменение свойств наблюдаемого ряда, происходящее в неизвестный заранее момент времени. Особое внимание уделено алгоритмам и статистическим показателям, которые определяют степень однородности данных, а также способам поиска точек разладки. В данной работе рассматриваются подходы, основанные на методах динамического программирования и скользящего окна. Вторая часть статьи посвящена численному моделированию представленных методов на характерных примерах экспериментальных данных, включающих как простые, так и сложные скоростные профили движения. Проведенный анализ позволил выделить методы, которые в дальнейшем будут проанализированы на полном корпусе данных. Предпочтение отдается методам, обеспечивающим близость разметки к заданному эталону, потенциально позволяющим детектировать обе границы переходных процессов, а также обладающим робастностью относительно внутренних параметров.
-
Статистически справедливая цена на европейские опционы колл согласно дискретной модели «среднее–дисперсия»
Компьютерные исследования и моделирование, 2014, т. 6, № 5, с. 861-874Просмотров за год: 1.Мы рассматриваем портфель с опционом колл и соответствующим базовым активом при стандартном предположении, что рыночная цена является случайной величиной с логнормальным распределением. Минимизируя дисперсию (риск хеджирования) портфеля на дату погашения опциона, мы находим оптимальное соотношение опциона и актива в портфеле. Как прямое следствие мы получим статистически справедливую цену опциона колл в явной форме (случай опциона пут может быть рассмотрен аналогичным образом). В отличие от известной теории Блэка–Шоулза, любой портфель не может рассматриваться свободным от риска, потому что никаких дополнительных сделок в течение контракта не предполагается, но среднестатистический риск, относящийся к достаточно большому количеству независимых портфелей, стремится к нулю асимптотически. Это свойство иллюстрируется в экспериментальном разделе на основе ежедневных цен акций 37-ми лидирующих американских компаний за период времени, начиная с апреля 2006 года по январь 2013 года.
-
Статистический анализ биграмм специализированных текстов
Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.
Ключевые слова: стохастическая матрица, спектральный портрет, статистический индикатор, научный текст. -
Модели борьбы с силовыми актами в морском пространстве
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 907-920Моделирование борьбы с террористическими, пиратскими и разбойными актами на море является актуальной научной задачей в силу распространенности силовых актов и недостаточного количества работ по данной проблематике. Действия пиратов и террористов разнообразны. С использованием судна-базы они могут нападать на суда на удалении до 450–500 миль от побережья. Выбрав цель, они ее преследуют и с применением оружия идут на абордаж. Действия по освобождению судна, захваченного пиратами или террористами, включают: блокирование судна, прогноз мест возможного нахождения пи- ратов на судне, проникновение (с борта на борт, по воздуху или из-под воды) и зачистка помещений судна. Анализ специальной литературы по действиям пиратов и террористов показал, что силовой акт (и действия по его нейтрализации) состоит из двух этапов: во-первых, это блокирование судна, заключающееся в принуждении к его остановке, и, во-вторых, нейтрализация команды (группы террористов, пиратов), включая проникновение на судно (корабль) и его зачистку. Этапам цикла поставлены в соответствие показатели — вероятность блокирования и вероятность нейтрализации. Переменными модели силового акта являются количество судов (кораблей, катеров) у нападающих и обороняющихся, а также численность группы захвата нападающих и экипажа судна — жертвы атаки. Параметры модели (показатели корабельного и боевого превосходства) оценены методом максимального правдоподобия с использованием международной базы по инцидентам на море. Значения названных параметров равны 7.6–8.5. Столь высокие значения параметров превосходства отражают возможности сторон по действиям в силовых актах. Предложен и статистически обоснован аналитический метод расчета параметров превосходства. В модели учитываются следующие показатели: возможности сторон по обнаружению противника, скоростные и маневренные характеристики судов, высота судна и характеристики средств абордажа, характеристики оружия и средств защиты и др. С использованием модели Г. Беккера и теории дискретного выбора оценена вероятность отказа от силового акта. Значимость полученных моделей для борьбы с силовыми актами в морском пространстве заключается в возможности количественного обоснования мер по защите судна от пиратских и террористических атак и мер сдерживания, направленных на предотвращение атак (наличие на борту судна вооруженной охраны, помощь военных кораблей и вертолетов).
Ключевые слова: математическая модель, пираты, морские террористы, силовой акт, блокирование, нейтрализация, вероятностная модель, оценка параметров. -
Модернизация как глобальный процесс: опыт математического моделирования
Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 859-873В статье проведен анализ эмпирических данных по долгосрочной демографической и экономической динамике стран мира за период с начала XIX века по настоящее время. В качестве показателей, характеризующих долгосрочную демографическую и экономическую динамику стран мира, были выбраны данные по численности населения и ВВП ряда стран мира за период 1500–2016 годов. Страны выбирались таким образом, чтобы в их число вошли представители с различным уровнем развития (развитые и развивающиеся страны), а также страны из различных регионов мира (Северная Америка, Южная Америка, Европа, Азия, Африка). Для моделирования и обработки данных использована специально разработанная математическая модель. Представленная модель является автономной системой дифференциальных уравнений, которая описывает процессы социально-экономической модернизации, в том числе процесс перехода от аграрного общества к индустриальному и постиндустриальному. В модель заложена идея о том, что процесс модернизации начинается с возникновения в традиционном обществе инновационного сектора, развивающегося на основе новых технологий. Население из традиционного сектора постепенно перемещается в инновационный сектор. Модернизация завершается, когда большая часть населения переходит в инновационный сектор.
При работе с моделью использовались статистические методы обработки данных, методы Big Data, включая иерархическую кластеризацию. С помощью разработанного алгоритма на базе метода случайного спуска были идентифицированы параметры модели и проведена ее верификация на основе эмпирических рядов, а также проведено тестирование модели с использованием статистических данных, отражающих изменения, наблюдаемые в развитых и развивающихся странах в период происходящей в течение последних столетий модернизации. Тестирование модели продемонстрировало ее высокое качество — отклонения расчетных кривых от статистических данных, как правило, небольшие и происходят в периоды войн и экономических кризисов. Проведенный анализ статистических данных по долгосрочной демографической и экономической динамике стран мира позволил определить общие закономерности и формализовать их в виде математической модели. Модель будет использоваться с целью прогноза демографической и экономической динамики в различных странах мира.
-
Сравнительный анализ статистических методов классификации научных публикаций в области медицины
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 921-933В работе проведено сравнение различных методов машинной классификации научных текстов по тематическим разделам на примере публикаций в профильных медицинских журналах, выпускаемых издательством Springer. Исследовался корпус текстов по пяти разделам: фармакология/токсикология, кардиология, иммунология, неврология и онкология. Рассматривались как методы поверхностной классификации, основанные на анализе аннотаций и ключевых слов, так и методы классификации на основе обработки собственно текстов. Были применены методы байесовской классификации, опорных векторов и эталонных буквосочетаний. Показано, что наилучшую точность имеет метод классификации на основе создания библиотеки эталонов буквенных триграмм, отвечающих текстам определенной тематики, а семантические методы уступают ему по точности. Выяснилось, что применительно к рассматриваемому корпусу текстов байесовский метод дает ошибку порядка 20 %, метод опорных векторов имеет ошибку порядка 10 %, а метод близости распределения текста к трехбуквенному эталону тематики дает ошибку порядка 5 %, что позволяет ранжировать эти методы для использования искусственного интеллекта в задачах классификации текстов по отраслевым специальностям. Существенно, что при анализе аннотаций метод опорных векторов дает такую же точность, что и при анализе полных текстов, что важно для сокращения числа операций для больших корпусов текстов.
-
Прогнозирование динамики трудовых ресурсов на многоотраслевом рынке труда
Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 235-250Рассмотрена задача прогнозирования количества занятых и безработных многоотраслевого рынка труда на основе балансовой математической модели межотраслевых перемещений трудовых ресурсов.
Балансовая математическая модель позволяет вычислять значения показателей межотраслевых перемещений с помощью только статистических данных по отраслевой занятости и безработице, предоставляемых Федеральной службой государственной статистики. Вычисленные за несколько лет подряд показатели межотраслевых перемещений трудовых ресурсов используются для построения трендов каждого из этих показателей. С помощью найденных трендов осуществляется прогнозирование показателей межотраслевых перемещений трудовых ресурсов, на основе результатов которого проводится прогнозирование отраслевой занятости и безработицы исследуемого многоотраслевого рынка труда.
Предложенный подход применен для прогнозирования занятых специалистов в отраслях народного хозяйства Российской Федерации в 2011–2016 гг. Для описания тенденций показателей, определяющих межотраслевые перемещения трудовых ресурсов, использовались следующие виды трендов: линейный, нелинейный, константный. Порядок выбора трендов наглядно продемонстрирован на примере показателей, определяющих перемещения трудовых ресурсов из отрасли «Транспорт и связь» в отрасль «Здравоохранение и предоставление социальных услуг», а также из отрасли «Государственное управление и обеспечение военной безопасности, социальное обеспечение» в отрасль «Образование».
Произведено сравнение нескольких подходов к прогнозированию: наивный прогноз, в рамках которого прогнозирование показателей рынка труда осуществлялось только на основе константного тренда; прогнозирование на основе балансовой модели с использованием только константного тренда для всех показателей, определяющих межотраслевые перемещения трудовых ресурсов; прогноз непосредственно по количеству занятых в отраслях экономики с помощью рассматриваемых в работе видов трендов; прогнозирование на основе балансовой модели с выбором тренда для каждого показателя, определяющего межотраслевые перемещения трудовых ресурсов. Показано, что использование балансовой модели обеспечивает лучшее качество прогноза по сравнению с прогнозированиемне посредственно по количеству занятых. Учет трендов показателей межотраслевых перемещений улучшает качество прогноза.
Также в статье приведены примеры анализа состояния многоотраслевого рынка труда Российской Федерации. С помощью балансовой модели были получены такие сведения, как распределение исходящих из конкретных отраслей потоков трудовых ресурсов по отраслямэк ономики, отраслевая структура входящих в конкретные отрасли потоков трудовых ресурсов. Эти сведения не содержаться непосредственно в данных, предоставляемых Федеральной службой государственной статистики.
-
Моделирование нетто-экосистемного обмена диоксида углерода сенокоса на осушенной торфяной почве: анализ сценариев использования
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1427-1449Нетто-экосистемный обмен (NEE) — ключевой компонент углеродного баланса, характеризующий экосистему как источник или сток углерода. В работе интерпретируются данные натурных измерений NEE и составляющих его компонентов (дыхания почвы — Rsoil, экосистемы — Reco и валового газообмена — GEE) сенокоса и залежи методами математического моделирования. Измерения проводились в ходе пяти полевых кампаний 2018 и 2019 гг. на осушенной части Дубненского болотного массива в Талдомском районе Московской области. После осушения для добычи торфа остаточная торфяная залежь (1–1.5 м) была распахана и впоследствии залужена под сенокосы. Измерение потоков CO2 проводили с помощью динамических камер: при ненарушенной растительности измеряли NEE и Reco, а при ее удалении — Rsoil. Для моделирования потоков CO2 была использована их связь с температурой почвы и воздуха, уровнем почвенно-грунтовых вод, фотосинтетически активной радиацией, подземной и надземной фитомассой растений. Параметризация моделей проведена с учетом устойчивости коэффициентов, оцененной методом статистического моделирования (бутстрэпа). Проведены численные эксперименты по оценке влияния различных режимов использования сенокоса на NEE. Установлено, что общий за сезон (с 15 мая по 30 сентября) NEE значимо не отличался на сенокосе без кошения (К0) и залежи, составив соответственно 4.5±1.0 и 6.2±1.4 тС·га–1·сезон–1. Таким образом, оба объекта являются источником диоксида углерода в атмосферу. Однократное в сезон кошение сенокоса (К1) приводит к росту NEE до 6.5±0.9, а двукратное (К2) — до 7.5±1.4 тС·га–1·сезон–1. Как при К1, так и при К2 потери углерода незначительно увели- чиваются в сравнении с К0 и оказываются близкими в сравнении с залежью. При этом накопленный растениями углерод частично переводится при кошении в сельскохозяйственную продукцию (величина скошенной фитомассы для К1 и К2 составляет 0.8±0.1 и 1.4±0.1 тС·га–1·сезон–1), в то время как на залежи его значительная часть возвращается в атмосферу при отмирании и последующем разложении растений.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"