Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Применение ансамбля нейросетей и методов статистической механики для предсказания связывания пептида с главным комплексом гистосовместимости
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1383-1395Белки главного комплекса гистосовместимости (ГКГС) играют ключевую роль в работе адаптивной иммунной системы, и определение связывающихся с ними пептидов — важный шаг в разработке вакцин и понимании механизмов аутоиммунных заболеваний. На сегодняшний день существует ряд методов для предсказания связывания определенной аллели ГКГС с пептидом. Одним из лучших таких методов является NetMHCpan-4.0, основанный на ансамбле искусственных нейронных сетей. В данной работе представлена методология качественного улучшения архитектуры нейронной сети, лежащей в основе NetMHCpan-4.0. Предлагаемый метод использует технику построения ансамбля и добавляет в качестве входных данных оценку модели Поттса, взятой из статистической механики и являющейся обобщением модели Изинга. В общем случае модельо тражает взаимодействие спинов в кристаллической решетке. Применительно к задаче белок-пептидного взаимодействия вместо спинов используются типы аминокислот, находящихся в кармане связывания. В предлагаемом методе модель Поттса используется для более всестороннего представления физической природы взаимодействия полипептидных цепей, входящих в состав комплекса. Для оценки взаимодействия комплекса «ГКГС + пептид» нами используется двумерная модель Поттса с 20 состояниями (соответствующими основным аминокислотам). Решая обратную задачу с использованием данных об экспериментально подтвержденных взаимодействующих парах, мы получаем значения параметров модели Поттса, которые затем применяем для оценки новой пары «ГКГС + пептид», и дополняем этим значением входные данные нейронной сети. Такой подход, в сочетании с техникой построения ансамбля, позволяет улучшитьт очность предсказания, по метрике положительной прогностической значимости (PPV), по сравнению с базовой моделью.
Ключевые слова: главный комплекс гистосовместимости, аффинностьсв язывания, нейронная сеть, машинное обучение, модельП оттса. -
Подход к оценке динамики уровня консолидированности отраcли
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 129-140В данной статье нами предложен новый подход к анализу эконометрических параметров отрасли для уровня консолидированности отрасли. Исследование базируется на простой модели управления отраслью в соответствии с моделью из теории автоматического управления. Состояние отрасли оценивается на основе ежеквартальных эконометрических параметров получаемых в обезличенном виде от каждой компании отрасли через налогового регулятора.
Предложен подход к анализу отрасли, который не предусматривает отслеживания эконометрических показателей каждой компании, но рассматривает параметры всех компаний отрасли, как единого объекта.
Ежеквартальными эконометрическими параметрами для каждой компании отрасли являются доход, количество работников, налоги и сборы, уплачиваемые в бюджет, доход от продажи лицензионных прав на программное обеспечение.
Был использован ABC-метод анализа модифицированный до ABCD-метода (D — компании с нулевым вкладом в соответствующую отраслевую метрику) для различных отраслевых метрик. Были построены Парето-кривые для множества эконометрических параметров отрасли.
Для оценки степени монополизированности отрасли был рассчитан индекс Херфиндаля – Хиршмана (ИХХ) для наиболее чувствительных метрик отрасли. С использованием ИХХ было показано что пандемия COVID-19 не привела к существенным изменениям уровня монополизированности российской ИТ-отрасли.
В качестве наиболее наглядного подхода к отображению отрасли было предложено использовать диаграмму рассеяния в сочетании с присвоением компаниям отрасли цвета в соответствии с их позицией на Парето-кривой. Также продемонстрирован эффект влияния процедуры аккредитации путем отображения отрасли в формате диаграммы рассеяния c красно-черным отображением аккредитованных и неаккредитованных компаний, соответственно.
И заключительным результатом, отраженным в статье является предложение использования процедуры сквозной идентификации при организации цепочек поставок программного обеспечения с целью контроля структуры рынка программного обеспечения. Этот подход позволяет избежать множественного учета при продаже лицензий на программное обеспечение в рамках цепочек поставок.
Результаты работы могут быть положены в основу дальнейшего анализа ИТ-отрасли и перехода к агентному моделированию отрасли.
-
Моделирование реологических характеристик водных суспензий на основе наноразмерных частиц диоксида кремния
Компьютерные исследования и моделирование, 2024, т. 16, № 5, с. 1217-1252Реологическое поведение водных суспензий на основе наноразмерных частиц диоксида кремния сильно зависит от динамической вязкости, которая непосредственно влияет на применение наножидкостей. Целью данной работы являются разработка и валидация моделей для прогнозирования динамической вязкости от независимых входных параметров: концентрации диоксида кремния SiO2, кислотности рН, а также скорости сдвига $\gamma$. Проведен анализ влияния состава суспензии на ее динамическую вязкость. Выявлены статистически однородные по составу группы суспензий, в рамках которых возможна взаимозаменяемость составов. Показано, что при малых скоростях сдвига реологические свойства суспензий существенно отличаются от свойств, полученных на более высоких скоростях. Установлены значимые положительные корреляции динамической вязкости суспензии с концентрацией SiO2 и кислотностью рН, отрицательные — со скоростью сдвига $\gamma$. Построены регрессионные модели с регуляризацией зависимости динамической вязкости $\eta$ от концентраций SiO2, NaOH, H3PO4, ПАВ (поверхностно-активное вещество), ЭДА (этилендиамин), скорости сдвига $\gamma$. Для более точного прогнозирования динамической вязкости были обучены модели с применением алгоритмов нейросетевых технологий и машинного обучения (многослойного перцептрона MLP, сети радиальной базисной функции RBF, метода опорных векторов SVM, метода случайного леса RF). Эффективность построенных моделей оценивалась с использованием различных статистических метрик, включая среднюю абсолютную ошибку аппроксимации (MAE), среднюю квадратическую ошибку (MSE), коэффициент детерминации $R^2$, средний процент абсолютного относительного отклонения (AARD%). Модель RF показала себя как лучшая модель на обучающей и тестовой выборках. Определен вклад каждой компоненты в построенную модель, показано, что наибольшее влияние на динамическую вязкость оказывает концентрация SiO2, далее кислотность рН и скорость сдвига $\gamma$. Точность предлагаемых моделей сравнивается с точностью ранее опубликованных в литературе моделей. Результаты подтверждают, что разработанные модели можно рассматривать как практический инструмент для изучения поведения наножидкостей, в которых используются водные суспензии на основе наноразмерных частиц диоксида кремния.
Ключевые слова: наножидкость, концентрация SiO$_2$, кислотность рН, динамическая вязкость, регрессия, нейронные сети, машинное обучение. -
Автоматизированная проверка соответствия соглашений об обработке данных регламенту по защите данных
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1667-1685В современном мире соблюдение нормативных требований по защите данных, таких как GDPR, является ключевым для организаций. Другой важной проблемой, выявленной при анализе, является то, что соблюдение осложняется сложностью правовых документов и постоянными изменениями в регулировании. В данной статье описываются способы, с помощью которых NLP (обработка естественного языка) способствует упрощению соблюдения GDPR путем автоматического сканирования на соответствие, оценки политик конфиденциальности и повышения уровня прозрачности. Работа не ограничивается исследованием применения NLP для работы с политиками конфиденциальности и улучшения понимания обмена данными с третьими сторонами, но также проводит предварительные исследования для оценки различий между несколькими моделями NLP. В статье описывается реализация и исполнение моделей для выявления той, которая демонстрирует наилучшую производительность по эффективности и скорости автоматизации процесса проверки соответствия и анализа политики конфиденциальности. Кроме того, в исследовании обсуждаются возможности использования автоматических инструментов и анализа данных для соблюдения GDPR, например, создание машиночитаемых моделей, которые помогают в оценке соответствия. Среди моделей, оцененных в нашем исследовании, SBERT показала лучшие результаты на уровне политики с точностью 0,57, прецизионностью 0,78, полнотой 0,83 и F1-метрикой 0,80. Модель BERT продемонстрировала наивысшую производительность на уровне предложений, достигнув точности 0,63, прецизионности 0,70, полноты 0,50 и F1-метрики 0,55. Таким образом, данная статья подчеркивает важность NLP в помощи организациям преодолеть трудности соблюдения GDPR, создавая дорожную карту к более ориентированному на клиента режиму защиты данных. В этом отношении, сравнивая предварительные исследования и демонстрируя производительность лучших моделей, работа способствует усилению мер по соблюдению и защите прав личности в киберпространстве.
-
Эффективный алгоритм сравнения документов в формате ${\mathrm{\LaTeX}}$
Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 329-345Рассматривается задача построения различий, возникающих при редактировании документов в формате ${\mathrm{\LaTeX}}$. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang–Shasha.
Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, редактирующее расстояние, синтаксическое дерево, токен, ${\mathrm{\LaTeX}}$.Просмотров за год: 2. Цитирований: 2 (РИНЦ). -
Описание изгибов протофиламентов микротрубочек
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 435-443Работа посвящена анализу конформационных изменений в димерах и тетрамерах тубулина, в частности оценке изгиба составленных из них протофиламентов. В работе рассмотрено три недавно использованных подхода для оценки изгиба тубулиновых протофиламентов: (1) измерение угла между вектором, проходящим через H7 спирали в $\alpha$- и $\beta$-мономерах тубулина в прямой структуре, и таким же вектором в изогнутой структуре тубулина; (2) измерение угла между вектором, соединяющим центры масс субъединицы и связанного с ней ГТФ- нуклеотида, и вектором, связывающим центры масс того же нуклеотида и соседней субъединицы тубулина; (3) измерение трех углов вращения субъединицы тубулина в изогнутой структуре димера тубулина относительно аналогичной субъединицы в прямой структуре димера тубулина. Приведены рассчитанные в соответствии с описанными тремя метриками количественные оценки углов на внутри- и междимерных интерфейсах тубулина в опубликованных кристаллических структурах. Внутридимерные углы тубулина в одной структуре, измеренные по методу (3), как и измерения этим методом внутридимерных углов в разных структурах, были более схожи, чем при использовании других методов, что говорит о меньшей чувствительности метода к локальным изменениям конформации тубулина, и характеризует метод в целом как более устойчивый. Измерения кривизны тубулина по углу между H7-спиралями дают несколько заниженную оценку удельной кривизны тубулина на димер, а метод (2), хотя на первый взгляд и дает цифры, также довольно хорошо совпадающие с оценками криоэлектронной микроскопии, существенно завышает углы даже на прямых структурах. Для структур тетрамеров тубулина в комплексе с белком статмином углы изгиба, рассчитанные по всем трем метрикам, различались для первого и второго димеров довольно существенно (до 20 % и больше), что говорит о чувствительности всех метрик к незначительным вариациям в конформации димеров тубулина внутри этих комплексов. Подробное описание процедур измерения изгибов тубулиновых протофиламентов, а также выявление преимуществ и недостатков различных метрик позволит увеличить воспроизводимость и четкость анализа структур тубулина в будущем, а также позволит облегчить сопоставление результатов, полученных различными научными группами.
Ключевые слова: тубулин, микротрубочки, динамическая нестабильность, углы Эйлера, молекулярное моделирование. -
Стохастическая оптимизация в задаче цифрового предыскажения сигнала
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 399-416В данной статье осуществляется сравнение эффективности некоторых современных методов и практик стохастической оптимизации применительно к задаче цифрового предыскажения сигнала (DPD), которое является важной составляющей процесса обработки сигнала на базовых станциях, обеспечивающих беспроводную связь. В частности, рассматривается два круга вопросов о возможностях применения стохастических методов для обучения моделей класса Винера – Гаммерштейна в рамках подхода минимизации эмпирического риска: касательно улучшения глубины и скорости сходимости данного метода оптимизации и относительно близости самой постановки задачи (выбранной модели симуляции) к наблюдаемому в действительности поведению устройства. Так, в первой части этого исследования внимание будет сосредоточено на вопросе о нахождении наиболее эффективного метода оптимизации и дополнительных к нему модификаций. Во второй части предлагается новая квази-онлайн-постановка задачи и, соответственно, среда для тестирования эффективности методов, благодаря которым результаты численного моделирования удается привести в соответствие с поведением реального прототипа устройства DPD. В рамках этой новой постановки далее осуществляется повторное тестирование некоторых избранных практик, более подробно рассмотренных в первой части исследования, и также обнаруживаются и подчеркиваются преимущества нового лидирующего метода оптимизации, оказывающегося теперь также наиболее эффективным и в практических тестах. Для конкретной рассмотренной модели максимально достигнутое улучшение глубины сходимости составило 7% в стандартном режиме и 5% в онлайн-постановке (при том что метрика сама по себе имеет логарифмическую шкалу). Также благодаря дополнительным техникам оказывается возможным сократить время обучения модели DPD вдвое, сохранив улучшение глубины сходимости на 3% и 6% для стандартного и онлайн-режимов соответственно. Все сравнения производятся с методом оптимизации Adam, который был отмечен как лучший стохастический метод для задачи DPD из рассматриваемых в предшествующей работе [Pasechnyuk et al., 2021], и с методом оптимизации Adamax, который оказывается наиболее эффективным в предлагаемом онлайн-режиме.
Ключевые слова: цифровое предыскажение, обработка сигнала, стохастическая оптимизация, онлайн-обучение. -
Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.
-
Модели сверточных нейронных сетей для классификации поврежденных вредителями хвойных деревьев на изображениях с беспилотных летательных аппаратов
Компьютерные исследования и моделирование, 2024, т. 16, № 5, с. 1271-1294В статье рассмотрена задача мультиклассификации хвойных деревьев с различной степенью поражения насекомыми-вредителями на изображениях, полученных с помощью беспилотных летательных аппаратов (БПЛА). Предложены три модификации классической сверточной нейронной сети U-Net для попиксельной классификации изображений пораженных деревьев пихты сибирской Abies sibirica и кедра сибирского Pinus sibirica. Первая модель Мо-U-Net вносит ряд изменений в классическую модель U-Net. Вторая и третья модели, названные MSC-U-Net и MSC-Res-U-Net, представляют собой ансамбли из трех моделей Мо-U-Net с разной глубиной и размерами входных изображений. В модели MSC-Res-U-Net также используются остаточные блоки. Нами созданы два датасета по изображениям с БПЛА пораженных вредителями деревьев Abies sibirica и Pinus Sibirica и обучены предложенные три модели с использованием функций потерь mIoULoss и Focal Loss. Затем исследовалась эффективность каждой обученной модели при классификации поврежденных деревьев Abies sibirica и Pinus sibirica. Результаты показали, что в случае использования функции потерь mIoULoss предложенные модели не пригодны для практического применения в лесной отрасли, поскольку не позволяют получить для отдельных классов деревьев этих пород точность классификации по метрике IoUс, превышающую пороговое значение 0,5. Однако в случае функции потерь Focal Loss модели MSC-Res-U-Net и Mo-U-Net, в отличие от третьей предложенной модели MSC-U-Net, для всех классов деревьев Abies sibirica и Pinus sibirica показывают высокую точность классификации (превышение порогового значения 0,5 по метрикам IoUс и mIoU). Эти результаты позволяют считать, что модели MSC-Res-U-Net и Mo-U-Net являются практически значимыми для специалистов лесной отрасли, поскольку позволяют выявлять хвойные деревья этих пород на ранней стадии их поражения вредителями.
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"