Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Определение автора текста методом сегментации
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1199-1210В работе описывается метод распознавания авторов литературных текстов по близости фрагментов, на которые разделен отдельный текст, к эталону автора. Эталоном является эмпирическое распределение частот буквосочетаний, построенное по обучающей выборке, куда вошли экспертно отобранные достоверно известные произведения данного автора. Совокупность эталонов разных авторов образует библиотеку, внутри которой и решается задача об идентификации автора неизвестного текста. Близость между текстами понимается в смысле нормы в L1 для вектора частот буквосочетаний, который строится для каждого фрагмента и для текста в целом. Автором неизвестного текста назначается тот, эталон которого чаще всего выбирается в качестве ближайшего для набора фрагментов, на которые разделен текст. Длина фрагмента оптимизируется исходя из принципа максимального различия расстояний от фрагментов до эталонов в задаче распознавания «свой–чужой». Тестирование метода проведено на корпусе отечественных и зарубежных (в переводе) авторов. Были собраны 1783 текста 100 авторов суммарным объемом примерно 700 млн знаков. Чтобы исключить тенденциозность отбора авторов, рассматривались авторы, фамилии которых начинались на одну и ту же букву (в данном случае Л). Ошибка идентификации по биграммам составила 12%. Наряду с достаточно высокой точностью данный метод обладает еще одним важным свойством: он позволяет оценить вероятность того, что эталон автора рассматриваемого текста в библиотеке отсутствует. Эта вероятность может быть оценена по результатам статистики ближайших эталонов для малых фрагментов текста. В работе исследуются также статистические цифровые портреты писателей: это совместные эмпирические распределения вероятности того, что некоторая доля текста идентифицируется на заданном уровне доверия. Практическая важность этих статистик в том, что носители соответствующих распределений практически не пересекаются для своих и чужих эталонов, что позволяет распознать эталонное распределение буквосочетаний на высоком уровне доверия.
Ключевые слова: эмпирическое распределение частот, биграммы, идентификация автора, литературный текст, ближайший эталон. -
Модель управления потреблением воды в регионах с малой водообеспеченностью
Компьютерные исследования и моделирование, 2023, т. 15, № 5, с. 1395-1410В статье рассматривается проблема рационального использования водных ресурсов на уровне региона. Приводится обзор существующих методов контроля качества и количества водных ресурсов на различных уровнях — от отдельных домохозяйств до мирового. В самой работе проблема рассматривается для регионов России с малой водообеспеченностью — количеством воды на человека в год. Особое внимание уделяется регионам, в которых данный показатель мал из-за природных особенностей региона, а не большого числа жителей. В таких регионах много ресурсов выделяется на различную водную инфраструктуру, в том числе водохранилища, переброску воды из соседних регионов. При этом основными потребителями воды являются промышленность и сельское хозяйство. В работе представлена динамическая двухуровневая модель, сопоставляющая потребление регионом воды и объем производства в регионе (валовый региональный продукт, ВРП). На верхнем уровне модели находится администрация региона (центр), назначающая плату за использование воды, а на нижнем — предприятия региона (агенты). Проведены аналитическое исследование и идентификация модели. Аналитическое исследование позволяет с помощью принципа максимума Понтрягина найти оптимальные управления агентов. Идентификация модели позволяет, используя статистические данные для региона, определить коэффициенты модели таким образом, чтобы она соответствовала данному региону. Для идентификации модели используются данные Росстата. Далее следует численное исследование модели для конкретных регионов с использованием алгоритма trust region reflective.
Для ряда регионов РФ с низким уровнем водообеспеченности приведены результаты идентификации модели на основе данных Росстата, а также возможные значения ВРП и потребления воды в зависимости от выбранной стратегии центра. Для многих регионов расчеты показывают возможность существенного (>20%) сокращения потребления воды при некотором сокращении производства (≈10%).
Приведенная в работе модель позволяет рассчитывать размер дополнительной платы за использование воды для достижения оптимального соотношения экономических и экологических последствий.
-
Идентификация параметров вязкоупругих моделей клетки на основе силовых кривых и вейвлет-преобразования
Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1653-1672Механические свойства клеток эукариот играют важную роль в условиях жизненного цикла и при развитии патологических процессов. В работе обсуждается проблема идентификации и верификации параметров вязкоупругих конститутивных моделей на основе данных силовой спектроскопии клеток эукариот. Предлагается использовать одномерное непрерывное вейвлет-преобразование для расчета ядра релаксации. Приводятся аналитические выкладки и результаты численных расчетов, позволяющие на основе экспериментально установленных силовых кривых и теоретических зависимостей «напряжение – деформация» с применением алгоритмов вейвлет-дифференцирования получать аналогичные друг другу функции релаксации. Анализируются тестовые примеры, демонстрирующие корректности программной реализации предложенных алгоритмов. Рассматриваются модели клетки, на примере которых демонстрируется применение предложенной процедуры идентификации и верификации их параметров. Среди них структурно-механическая модель с параллельно соединенными дробными элементами, которая является на данный момент наиболее адекватной с точки зрения соответствия данным атомно-силовой микроскопии широкого класса клеток, и новая статистико-термодинамическая модель, которая не уступает в описательных возможностях моделям с дробными производными, но имеет более ясный физический смысл. Для статистико-термодинамической модели подробно описывается процедура ее построения, которая в себя включает следующее: введение структурной переменной, параметра порядка, для описания ориентационных свойств цитоскелета клетки; постановку и решение статистической задачи для ансамбля актиновых филаментов представительного объема клетки относительно данной переменной; установление вида свободной энергии, зависящей от параметра порядка, температуры и внешней нагрузки. Также предложено в качестве модели представительного элемента клетки использовать ориентационно-вязкоупругое тело. Согласно теории линейной термодинамики получены эволюционные уравнения, описывающие механическое поведение представительного объема клетки, которые удовлетворяют основным термодинамическим законам. Также поставлена и решена задача оптимизации параметров статистико-термодинамической модели клетки, которая может сопоставляется как с экспериментальными данными, так и с результатами симуляций на основе других математических моделей. Определены вязкоупругие характеристики клеток на основе сопоставления с литературными данными.
-
Графовая сверточная нейронная сеть для быстрого и точного дизассемблирования инструкций x86
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1779-1792Дизассемблирование двоичных файлов x86 — важная, но нетривиальная задача. Дизассемблирование трудно выполнить корректно без отладочной информации, особенно на архитектуре x86, в которой инструкции переменного размера чередуются с данными. Более того, наличие непрямых переходов в двоичном коде добавляет еще один уровень сложности. Непрямые переходы препятствуют возможности рекурсивного обхода, распространенного метода дизассемблирования, успешно идентифицировать все инструкции в коде. Следовательно, дизассемблирование такого кода становится еще более сложным и требовательным, что еще больше подчеркивает проблемы, с которыми приходится сталкиваться в этой области. Многие инструменты, включая коммерческие, такие как IDA Pro, с трудом справляются с точным дизассемблированием x86. В связи с этим был проявлен определенный интерес к разработке более совершенного решения с использованием методов машинного обучения, которое потенциально может охватывать базовые, независимые от компилятора паттерны, присущие машинному коду, сгенерированному компилятором. Методы машинного обучения могут превосходитьпо точности классические инструменты. Их разработка также может занимать меньше времени по сравнению с эвристическими методами, реализуемыми вручную, что позволяет переложитьо сновную нагрузку на сбор большого представительного набора данных исполняемых файлов с отладочной информацией. Мы усовершенствовали существующую архитектуру на основе рекуррентных графовых сверточных нейронных сетей, которая строит граф управления и потоков для дизассемблирования надмножеств инструкций. Мы расширили граф информацией о потоках данных: при кодировании входной программы, мы добавляем ребра потока управления и зависимостей от регистров, вдохновленные вероятностным дизассемблированием. Мы создали открытый набор данных для идентификации инструкций x86, основанный на комбинации набора данных ByteWeight и нескольких пакетов Debian с открытым исходным кодом. По сравнению с IDA Pro, современным коммерческим инструментом, наш подход обеспечивает более высокую точность при сохранении высокой производительности в наших тестах. Он также хорошо себя показывает по сравнению с существующими подходами машинного обучения, такими как DeepDi.
-
Многокритериальный метрический анализ данных при моделировании человеческого капитала
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1223-1245В статье описываетсявы числимаям одель человека в информационной экономике и демонстрируется многокритериальный оптимизационный подход к метрическому анализу модельных данных. Традиционный подход к идентификации и исследованию модели предполагает идентификацию модели по временным рядам и прогнозирование дальнейшей динамики ряда. Однако этот подход неприменим к моделям, некоторые важнейшие переменные которых не наблюдаютсяя вно, и известны только некоторые типичные границы или особенности генеральной совокупности. Такая ситуация часто встречается в социальных науках, что делает модели сугубо теоретическими. Чтобы избежать этого, для (неявной) идентификации и изучения таких моделей предлагается использовать метод метрического анализа данных (MMDA), основанный на построении и анализе метрических сетей Колмогорова – Шеннона, аппроксимирующих генеральную совокупность данных модельной генерации в многомерном пространстве социальных характеристик. С помощью этого метода идентифицированы коэффициенты модели и изучены особенности ее фазовых траекторий. Представленнаяв статье модель рассматривает человека как субъекта, обрабатывающего информацию, включая его информированность и когнитивные способности. Составлены пожизненные индексы человеческого капитала: креативного индивида (обобщающего когнитивные способности) и продуктивного (обобщает объем освоенной человеком информации). Поставлена задача их многокритериальной (двухкритериальной) оптимизации с учетом ожидаемой продолжительности жизни. Такой подход позволяет выявить и экономически обосновать требования к системе образования и социализации (информационному окружению) человека до достиженияим взрослого возраста. Показано, что в поставленной оптимизационной задаче возникает Парето-граница, причем ее тип зависит от уровня смертности: при высокой продолжительности жизни доминирует одно решение, в то время как для более низкой продолжительности жизни существуют различные типы Парето-границы. В частности, в случае России применим принцип Парето: значительное увеличение креативного человеческого капитала индивида возможно за счет небольшого сниженияпр одуктивного человеческого капитала (обобщение объема освоенной человеком информации). Показано, что рост продолжительности жизни делает оптимальным компетентностный подход, ориентированный на развитие когнитивных способностей, в то время как при низкой продолжительности жизни предпочтительнее знаниевый подход.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"