Текущий выпуск Номер 2, 2024 Том 16

Все выпуски

Результаты поиска по 'статистика':
Найдено статей: 31
  1. Корепанов В.О., Чхартишвили А.Г., Шумов В.В.
    Теоретико-игровые и рефлексивные модели боевых действий
    Компьютерные исследования и моделирование, 2022, т. 14, № 1, с. 179-203

    Моделирование боевых действий является актуальной научной и практической задачей, направленной на предоставление командирам и штабам количественных оснований для принятия решений. Авторами предложена функция победы в боевых и военных действиях, основанная на функции конфликта Г. Таллока и учитывающая масштаб боевых (военных) действий. На достаточном объеме данных военной статистики выполнена оценка параметра масштаба и найдены его значения для тактического, оперативного и стратегического уровней. Исследованы теоретико-игровые модели «наступление-оборона», в которых стороны решают ближайшую и последующую задачи, имея построение войск в один или несколько эшелонов. На первом этапе моделирования находится решение ближайшей задачи — прорыв (удержание) пунктов обороны, на втором — решение последующей задачи — разгром противника в глубине обороны (контратака и восстановление обороны). Для тактического уровня с использованием равновесия Нэша найдены решения ближайшей задачи (распределение сил сторон по пунктам обороны) в антагонистической игре по трем критериям: а) прорыв слабейшего пункта; б) прорыв хотя бы одного пункта; в) средневзвешенная вероятность. Показано, что наступающей стороне целесообразно использовать критерий «прорыв хотя бы одного пункта», при котором, при прочих равных условиях, обеспечивается максимальная вероятность прорыва пунктов обороны. На втором этапе моделирования для частного случая (стороны при прорыве и удержании пунктов обороны руководствуются критерием прорыва слабейшего пункта) решена задача распределения сил и средств между тактическими задачами (эшелонами) по двум критериям: а) максимизация вероятности прорыва пункта обороны и вероятности разгрома противника в глубине обороны; б) максимизация минимального значения из названных вероятностей (критерий гарантированного результата). Важным аспектом боевых действий является информированность. Рассмотрены несколько примеров рефлексивных игр (игр, характеризующихся сложной взаимной информированностью) и осуществления информационного управления. Показано, при каких условиях информационное управление увеличивает выигрыш игрока, и найдено оптимальное информационное управление.

  2. Попов А.Б.
    Неэкстенсивная статистика Тсаллиса системы контрактоворганизаций оборонно-промышленного комплекса
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1163-1183

    В работе проведен анализ системы контрактов, заключаемых организациями оборонно-промышленного комплекса России в процессе выполнения государственного оборонного заказа. Сделан вывод, что для описания данной системы может быть использована методология статистической механики. По аналогии с подходом, применяемым при рассмотрении большого канонического ансамбля Гиббса, изучаемый ансамбль сформирован в виде набора мгновенных «картинок», образованных из действующих в каждый момент времени неразличимых контрактов со своими стоимостями. Показано, что ограничения, накладываемые государством на процесс ценообразования, являются причиной того, что совокупность контрактов может быть отнесена к категории так называемых сложных систем, для описания которых используется неэкстенсивная статистика Тсаллиса. Это приводит к тому, что стоимостные распределения контрактов должны соответствовать деформированному распределению Бозе–Эйнштейна, полученному с использованием энтропии Тсаллиса. Данный вывод справедлив как для всей совокупности контрактов, заключаемых участниками выполнения государственного оборонного заказа, так и контрактов, заключаемых отдельной организацией в качестве исполнителя.

    Для анализа степени соответствия эмпирических стоимостных распределений модифицированному распределению Бозе–Эйнштейна в настоящей работе использован метод сравнения соответствующих функций распределения вероятностей. В работе делается вывод о том, что для изучения стоимостных распределений контрактов отдельной организации в качестве анализируемых данных можно использовать сформировавшиеся за календарный год распределения выручки по отдельным заказам, соответствующим заключенным контрактам. Получены эмпирические функции распределения вероятностей ранжированных значений выручки от реализации по отдельным заказам АО «Концерн «ЦНИИ «Электроприбор», одной из ведущих приборостроительных организаций ОПК России, с 2007 по 2021 год. Наблюдается хорошее согласие между эмпирическими и теоретическими функциями распределений вероятностей, рассчитанными с использованием деформированных распределений Бозе–Эйнштейна в пределе «разряженного газа контрактов». Полученные на основе эмпирических данных значения параметров энтропийного индекса для каждого из изученных распределений выручки свидетельствуют о достаточно высокой степени неаддитивности, присущей изучаемой системе. Показано, что для оценки характеристических стоимостей распределений можно использовать величину среднего значения годовой выручки, рассчитанного с помощью нормированного эскортного распределения. Факт наилучшего согласия эмпирических и теоретических функций распределения вероятностей при нулевых значениях химического потенциала позволяет сделать предположение, что изучаемый «газ контрактов» можно сравнить с газом фотонов, в котором число частиц не является постоянным.

  3. Зенков А.В.
    Новый метод стилеметрии на основе статистики числительных
    Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 837-850

    Предложен новый метод статистического анализа текстов. Исследовано распределение частот различных первых значащих цифр в числительных англоязычных текстов. Учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно. Предварительно из текста удаляются случайно попавшие в него числительные, не отражающие авторский замысел (номера страниц, маркеры списков, идиоматические выражения, устойчивые обороты речи и тому подобное). Обнаружено, что для сборных текстов разного авторства частоты первых значащих цифр приближенно соответствуют известному закону Бенфорда, но с резким преобладанием встречаемости единицы. В связных авторских текстах возникают характерные отклонения от закона Бенфорда; показано, что эти отклонения являются статистически устойчивыми и значимыми авторскими особенностями, позволяющими при определенных условиях ответить на вопрос об авторстве и различить тексты разных авторов. Требуется, чтобы текст был достаточно длинным (не менее чем порядка 200 кБ). Распределение первых значащих цифр конца ряда $\{1, 2, \ldots, 8, 9\}$ подвержено сильным флуктуациям и не показательно для нашей цели. Цель теоретического обоснования найденной эмпирической закономерности в работе не ставится, но продемонстрировано ее практическое использование для атрибуции текстов. Предлагаемый подход и сделанные выводы подкреплены примерами компьютерного анализа художественных текстов У. М. Теккерея, М. Твена, Р. Л. Стивенсона, Дж.Джойса, сестер Бронте, Дж.Остин. На основе разработанной методологии рассмотрены проблемы авторства текста, ранее приписывавшегося Л.Ф. Бауму (результат согласуется с полученным другими методами), а также известного романа Харпер Ли «Убить пересмешника»; показано, что к написанию первоначального варианта этой книги («Пойди, поставь сторожа») мог быть причастен Трумен Капоте, но финальный текст, вероятно, принадлежит Харпер Ли. Результаты подтверждены на основе параметрического критерия Пирсона, а также непараметрических U-критерия Манна–Уитни и критерия Крускала–Уоллиса.

    Просмотров за год: 10.
  4. Краснов Ф.В., Смазневич И.С., Баскакова Е.Н.
    Метод контрастного семплирования для предсказания библиографических ссылок
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1317-1336

    В работе рассматривается задача поиска в научной статье фрагментов с недостающими библиографическими ссылками с помощью автоматической бинарной классификации. Для обучения модели предложен метод контрастного семплирования, новшеством которого является рассмотрение контекста ссылки с учетом границ фрагмента, максимально влияющего на вероятность нахождения в нем библиографической ссылки. Обучающая выборка формировалась из автоматически размеченных семплов — фрагментов из трех предложений с метками классов «без ссылки» и «со ссылкой», удовлетворяющих требованию контрастности: семплы разных классов дистанцируются в исходном тексте. Пространство признаков строилось автоматически по статистике встречаемости термов и расширялось за счет конструирования дополнительных признаков — выделенных в тексте сущностей ФИО, чисел, цитат и аббревиатур.

    Проведена серия экспериментов на архивах научных журналов «Правоприменение» (273 статьи) и «Журнал инфектологии» (684 статьи). Классификация осуществлялась моделями Nearest Neighbours, RBF SVM, Random Forest, Multilayer Perceptron, с подбором оптимальных гиперпараметров для каждого классификатора.

    Эксперименты подтвердили выдвинутую гипотезу. Наиболее высокую точность показал нейросетевой классификатор (95%), уступающий по скорости линейному, точность которого при контрастном семплировании также оказалась высока (91–94 %). Полученные значения превосходят результаты, опубликованные для задач NER и анализа тональности на данных со сравнимыми характеристиками. Высокая вычислительная эффективность предложенного метода позволяет встраивать его в прикладные системы и обрабатывать документы в онлайн-режиме.

  5. Митин Н.А., Орлов Ю.Н.
    Статистический анализ биграмм специализированных текстов
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254

    Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.

  6. Воронина М.Ю., Орлов Ю.Н.
    Определение автора текста методом сегментации
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1199-1210

    В работе описывается метод распознавания авторов литературных текстов по близости фрагментов, на которые разделен отдельный текст, к эталону автора. Эталоном является эмпирическое распределение частот буквосочетаний, построенное по обучающей выборке, куда вошли экспертно отобранные достоверно известные произведения данного автора. Совокупность эталонов разных авторов образует библиотеку, внутри которой и решается задача об идентификации автора неизвестного текста. Близость между текстами понимается в смысле нормы в L1 для вектора частот буквосочетаний, который строится для каждого фрагмента и для текста в целом. Автором неизвестного текста назначается тот, эталон которого чаще всего выбирается в качестве ближайшего для набора фрагментов, на которые разделен текст. Длина фрагмента оптимизируется исходя из принципа максимального различия расстояний от фрагментов до эталонов в задаче распознавания «свой–чужой». Тестирование метода проведено на корпусе отечественных и зарубежных (в переводе) авторов. Были собраны 1783 текста 100 авторов суммарным объемом примерно 700 млн знаков. Чтобы исключить тенденциозность отбора авторов, рассматривались авторы, фамилии которых начинались на одну и ту же букву (в данном случае Л). Ошибка идентификации по биграммам составила 12%. Наряду с достаточно высокой точностью данный метод обладает еще одним важным свойством: он позволяет оценить вероятность того, что эталон автора рассматриваемого текста в библиотеке отсутствует. Эта вероятность может быть оценена по результатам статистики ближайших эталонов для малых фрагментов текста. В работе исследуются также статистические цифровые портреты писателей: это совместные эмпирические распределения вероятности того, что некоторая доля текста идентифицируется на заданном уровне доверия. Практическая важность этих статистик в том, что носители соответствующих распределений практически не пересекаются для своих и чужих эталонов, что позволяет распознать эталонное распределение буквосочетаний на высоком уровне доверия.

  7. Никитюк А.С.
    Идентификация параметров вязкоупругих моделей клетки на основе силовых кривых и вейвлет-преобразования
    Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1653-1672

    Механические свойства клеток эукариот играют важную роль в условиях жизненного цикла и при развитии патологических процессов. В работе обсуждается проблема идентификации и верификации параметров вязкоупругих конститутивных моделей на основе данных силовой спектроскопии клеток эукариот. Предлагается использовать одномерное непрерывное вейвлет-преобразование для расчета ядра релаксации. Приводятся аналитические выкладки и результаты численных расчетов, позволяющие на основе экспериментально установленных силовых кривых и теоретических зависимостей «напряжение – деформация» с применением алгоритмов вейвлет-дифференцирования получать аналогичные друг другу функции релаксации. Анализируются тестовые примеры, демонстрирующие корректности программной реализации предложенных алгоритмов. Рассматриваются модели клетки, на примере которых демонстрируется применение предложенной процедуры идентификации и верификации их параметров. Среди них структурно-механическая модель с параллельно соединенными дробными элементами, которая является на данный момент наиболее адекватной с точки зрения соответствия данным атомно-силовой микроскопии широкого класса клеток, и новая статистико-термодинамическая модель, которая не уступает в описательных возможностях моделям с дробными производными, но имеет более ясный физический смысл. Для статистико-термодинамической модели подробно описывается процедура ее построения, которая в себя включает следующее: введение структурной переменной, параметра порядка, для описания ориентационных свойств цитоскелета клетки; постановку и решение статистической задачи для ансамбля актиновых филаментов представительного объема клетки относительно данной переменной; установление вида свободной энергии, зависящей от параметра порядка, температуры и внешней нагрузки. Также предложено в качестве модели представительного элемента клетки использовать ориентационно-вязкоупругое тело. Согласно теории линейной термодинамики получены эволюционные уравнения, описывающие механическое поведение представительного объема клетки, которые удовлетворяют основным термодинамическим законам. Также поставлена и решена задача оптимизации параметров статистико-термодинамической модели клетки, которая может сопоставляется как с экспериментальными данными, так и с результатами симуляций на основе других математических моделей. Определены вязкоупругие характеристики клеток на основе сопоставления с литературными данными.

  8. Чувилин К.В.
    Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883

    Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.

    Цитирований: 5 (РИНЦ).
  9. Дроботенко М.И., Невечеря А.П.
    Прогнозирование динамики трудовых ресурсов на многоотраслевом рынке труда
    Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 235-250

    Рассмотрена задача прогнозирования количества занятых и безработных многоотраслевого рынка труда на основе балансовой математической модели межотраслевых перемещений трудовых ресурсов.

    Балансовая математическая модель позволяет вычислять значения показателей межотраслевых перемещений с помощью только статистических данных по отраслевой занятости и безработице, предоставляемых Федеральной службой государственной статистики. Вычисленные за несколько лет подряд показатели межотраслевых перемещений трудовых ресурсов используются для построения трендов каждого из этих показателей. С помощью найденных трендов осуществляется прогнозирование показателей межотраслевых перемещений трудовых ресурсов, на основе результатов которого проводится прогнозирование отраслевой занятости и безработицы исследуемого многоотраслевого рынка труда.

    Предложенный подход применен для прогнозирования занятых специалистов в отраслях народного хозяйства Российской Федерации в 2011–2016 гг. Для описания тенденций показателей, определяющих межотраслевые перемещения трудовых ресурсов, использовались следующие виды трендов: линейный, нелинейный, константный. Порядок выбора трендов наглядно продемонстрирован на примере показателей, определяющих перемещения трудовых ресурсов из отрасли «Транспорт и связь» в отрасль «Здравоохранение и предоставление социальных услуг», а также из отрасли «Государственное управление и обеспечение военной безопасности, социальное обеспечение» в отрасль «Образование».

    Произведено сравнение нескольких подходов к прогнозированию: наивный прогноз, в рамках которого прогнозирование показателей рынка труда осуществлялось только на основе константного тренда; прогнозирование на основе балансовой модели с использованием только константного тренда для всех показателей, определяющих межотраслевые перемещения трудовых ресурсов; прогноз непосредственно по количеству занятых в отраслях экономики с помощью рассматриваемых в работе видов трендов; прогнозирование на основе балансовой модели с выбором тренда для каждого показателя, определяющего межотраслевые перемещения трудовых ресурсов. Показано, что использование балансовой модели обеспечивает лучшее качество прогноза по сравнению с прогнозированиемне посредственно по количеству занятых. Учет трендов показателей межотраслевых перемещений улучшает качество прогноза.

    Также в статье приведены примеры анализа состояния многоотраслевого рынка труда Российской Федерации. С помощью балансовой модели были получены такие сведения, как распределение исходящих из конкретных отраслей потоков трудовых ресурсов по отраслямэк ономики, отраслевая структура входящих в конкретные отрасли потоков трудовых ресурсов. Эти сведения не содержаться непосредственно в данных, предоставляемых Федеральной службой государственной статистики.

  10. Тимирьянова В.М., Лакман И.А., Ларькин М.М.
    Прогнозирование розничной торговли на высокочастотных обезличенных данных
    Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1713-1734

    Развитие технологий определяет появление данных с высокой детализацией во времени и пространстве, что расширяет возможности анализа, позволяя рассматривать потребительские решения и конкурентное поведение предприятий во всем их многообразии, с учетом контекста территории и особенностей временных периодов. Несмотря на перспективность таких исследований, в настоящее время в научной литературе они представлены ограниченно, что определяется их особенностями. С целью их раскрытия в статье обращается внимание на ключевые проблемы, возникающие при работе с обезличенными высокочастотными данными, аккумулируемыми фискальными операторами, и направления их решения, проводится спектр тестов, направленный на выявление возможности моделирования изменений потребления во времени и пространстве. Особенности нового вида данных рассмотрены на примере реальных обезличенных данных, полученных от оператора фискальных данных «Первый ОФД» (АО «Энергетические системы и коммуникации»). Показано, что одновременно со спектром свойственных высокочастотным данным проблем существуют недостатки, связанные с процессом формирования данных на стороне продавцов, требующие более широкого применения инструментов интеллектуального анализа данных. На рассматриваемых данных проведена серия статистических тестов, включая тест на наличие ложной регрессии, ненаблюдаемых эффектов в остатках модели, последовательной корреляции и кросс-секционной зависимости остатков панельной модели, авторегрессии первого порядка в случайных эффектах, сериальной корреляции на первых разностях панельных данных и др. Наличие пространственной автокорреляции данных тестировалось с помощью модифицированных тестов множителей Лагранжа. Проведенные тесты показали наличие последовательной корреляции и пространственной зависимости данных, обуславливающих целесообразность применения методов панельного и пространственного анализа применительно к высокочастотным данным, аккумулируемым фискальными операторами. Построенные модели позволили обосновать пространственную связь роста продаж и ее зависимость от дня недели. Ограничением для повышения предсказательной возможности построенных моделей и последующего их усложнения, за счет включения объясняющих факторов, стало отсутствие в открытом доступе статистики, сгруппированной в необходимой детализации во времени и пространстве, что определяет актуальность формирования баз высокочастотных географически структурированных данных.

Страницы: « первая предыдущая следующая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.