Все выпуски
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Применение ансамбля нейросетей и методов статистической механики для предсказания связывания пептида с главным комплексом гистосовместимости
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1383-1395Белки главного комплекса гистосовместимости (ГКГС) играют ключевую роль в работе адаптивной иммунной системы, и определение связывающихся с ними пептидов — важный шаг в разработке вакцин и понимании механизмов аутоиммунных заболеваний. На сегодняшний день существует ряд методов для предсказания связывания определенной аллели ГКГС с пептидом. Одним из лучших таких методов является NetMHCpan-4.0, основанный на ансамбле искусственных нейронных сетей. В данной работе представлена методология качественного улучшения архитектуры нейронной сети, лежащей в основе NetMHCpan-4.0. Предлагаемый метод использует технику построения ансамбля и добавляет в качестве входных данных оценку модели Поттса, взятой из статистической механики и являющейся обобщением модели Изинга. В общем случае модельо тражает взаимодействие спинов в кристаллической решетке. Применительно к задаче белок-пептидного взаимодействия вместо спинов используются типы аминокислот, находящихся в кармане связывания. В предлагаемом методе модель Поттса используется для более всестороннего представления физической природы взаимодействия полипептидных цепей, входящих в состав комплекса. Для оценки взаимодействия комплекса «ГКГС + пептид» нами используется двумерная модель Поттса с 20 состояниями (соответствующими основным аминокислотам). Решая обратную задачу с использованием данных об экспериментально подтвержденных взаимодействующих парах, мы получаем значения параметров модели Поттса, которые затем применяем для оценки новой пары «ГКГС + пептид», и дополняем этим значением входные данные нейронной сети. Такой подход, в сочетании с техникой построения ансамбля, позволяет улучшитьт очность предсказания, по метрике положительной прогностической значимости (PPV), по сравнению с базовой моделью.
Ключевые слова: главный комплекс гистосовместимости, аффинностьсв язывания, нейронная сеть, машинное обучение, модельП оттса. -
Методика имитационного моделирования на основе обучающих данных для двухфазного течения в гетерогенной пористой среде
Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 779-792Классические численные методы, применяемые для предсказания эволюции гидродинамических систем, предъявляют высокие требования к вычислительным ресурсам и накладывают ограничения на число вариантов геолого-гидродинамических моделей, расчет эволюции состояний которых возможно осуществлять в практических условиях. Одним из перспективных подходов к разработке эвристических оценок, которые могли бы ускорить рассмотрение вариантов гидродинамических моделей, является имитационное моделирование на основе обучающих данных. В рамках этого подхода методы машинного обучения используются для настройки весов искусственной нейронной сети (ИНС), предсказывающей состояние физической системы в заданный момент времени на основе начальных условий. В данной статье описаны оригинальная архитектура ИНС и специфическая процедура обучения, формирующие эвристическую модель двухфазного течения в гетерогенной пористой среде. Основанная на ИНС модель с приемлемой точностью предсказывает состояния расчетных блоков моделируемой системы в произвольный момент времени (с известными ограничениями) на основе только начальных условий: свойств гетерогенной проницаемости среды и размещения источников и стоков. Предложенная модель требует на порядки меньшего процессорного времени в сравнении с классическим численным методом, который послужил критерием оценки эффективности обученной модели. Архитектура ИНС включает ряд подсетей, обучаемых в различных комбинациях на нескольких наборах обучающих данных. Для обучения ИНС в рамках многоэтапной процедуры применены техники состязательного обучения и переноса весов из обученной модели.
-
Мониторинг распространения борщевика Сосновского с использованием алгоритма машинного обучения «случайный лес» в Google Earth Engine
Компьютерные исследования и моделирование, 2022, т. 14, № 6, с. 1357-1370Изучение спектрального отклика растений на основе данных, собранных с помощью дистанционного зондирования, имеет большой потенциал для решения реальных проблем в различных областях исследований. В этом исследовании мы использовали спектральные свойства для идентификации инвазивного растения — борщевика Сосновского — по спутниковым снимкам. Борщевик Сосновского — инвазивное растение, которое наносит много вреда людям, животным и экосистеме в целом. Мы использовали выборочные данные о геолокации мест произрастания борщевика в Московской области, собранные с 2018 по 2020 год, и спутниковые снимки Sentinel-2 для спектрального анализа с целью его обнаружения на снимках. Мы развернули модель машинного обучения Random Forest (RF) на облачной платформе Google Earth Engine (GEE). Алгоритм обучается на наборе данных, состоящем из 12 каналов спутниковых снимков Sentinel-2, цифровой модели рельефа и некоторых спектральных индексов, которые используются в алгоритме в качестве параметров. Используемый подход заключается в выявлении биофизических параметров борщевика Сосновского по его коэффициентам отражения с уточнением радиочастотной модели непосредственно по набору данных. Наши результаты наглядно демонстрируют насколько сочетание методов дистанционного зондирования и машинного обучения может помочь в обнаружении борщевика и контроле его инвазивного распространения. Наш подход обеспечивает высокую точность обнаружения очагов произрастания борщевика Сосновского, составляющую 96,93 %.
Ключевые слова: борщевик Сосновского, инвазивные растения, Google Earth Engine, машинное обучение, случайный лес. -
Сравнение оценок онлайн- и офлайн-подходов для седловой задачи в билинейной форме
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 381-391Стохастическая оптимизация является актуальным направлением исследования в связи со значительными успехами в области машинного обучения и их применениями для решения повседневных задач. В данной работе рассматриваются два принципиально различных метода решения задачи стохастической оптимизации — онлайн- и офлайн-алгоритмы. Соответствующие алгоритмы имеют свои качественные преимущества перед друг другом. Так, для офлайн-алгоритмов требуется решать вспомогательную задачу с высокой точностью. Однако это можно делать распределенно, и это открывает принципиальные возможности, как, например, построение двойственной задачи. Несмотря на это, и онлайн-, и офлайн-алгоритмы преследуют общую цель — решение задачи стохастической оптимизации с заданной точностью. Это находит отражение в сравнении вычислительной сложности описанных алгоритмов, что демонстрируется в данной работе.
Сравнение описанных методов проводится для двух типов стохастических задач — выпуклой оптимизации и седел. Для задач стохастической выпуклой оптимизации существующие решения позволяют довольно подробно сравнить онлайн- и офлайн-алгоритмы. В частности, для сильно выпуклых задач вычислительная сложность алгоритмов одинаковая, причем условие сильной выпуклости может быть ослаблено до условия $\gamma$-роста целевой функции. С этой точки зрения седловые задачи являются гораздо менее изученными. Тем не менее существующие решения позволяют наметить основные направления исследования. Так, значительные продвижения сделаны для билинейных седловых задач с помощью онлайн-алгоритмов. Оффлайн-алгоритмы представлены всего одним исследованием. В данной работе на этом примере демонстрируется аналогичная с выпуклой оптимизацией схожесть обоих алгоритмов. Также был проработан вопрос точности решения вспомогательной задачи для седел. С другой стороны, седловая задача стохастической оптимизации обобщает выпуклую, то есть является ее логичным продолжением. Это проявляется в том, что существующие результаты из выпуклой оптимизации можно перенести на седла. В данной работе такой перенос осуществляется для результатов онлайн-алгоритма в выпуклом случае, когда целевая функция удовлетворяет условию $\gamma$-роста.
-
Распознавание эффектов и механизма действия препаратов на основе анализа внутричерепной ЭЭГ с помощью методов глубокого обучения
Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 755-772Прогнозирование новых свойств лекарственных средств является основной задачей в рамках решения проблем полифармакологии, репозиционирования, а также изучения биологически активных веществ на доклиническом этапе. Идентификация фармакологических эффектов и взаимодействий «препарат – мишень» с использованием машинного обучения (включая методы глубокого обучения) набирает популярность в последние годы.
Цель работы состояла в разработке метода распознавания психотропных эффектов и механизма действия (взаимодействий препарата с мишенью) на основании анализа биоэлектрической активности мозга с применением технологий искусственного интеллекта.
Выполнялась регистрация электроэнцефалографических (ЭЭГ) сигналов крыс (4 канала, частота дискретизации — 500 Гц) после введения психотропных препаратов (габапентин, диазепам, карбамазепин, прегабалин, эсликарбазепин, феназепам, ареколин, коразол, пикротоксин, пилокарпин, хлоралгидрат). Сигналы (эпохи продолжительностью 2 с) преобразовывались в изображения $(2000 \times 4)$ и затем поступали на вход автоэнкодера. Выходные данные слоя «бутылочного горлышка» классифицировались и кластеризовались (с применением алгоритма t-SNE), а затем вычислялись расстояния между кластерами в пространстве параметров. В качестве альтернативны использовался подход, основанный на извлечении признаков с размерной редукцией при помощи метода главных компонент и классификацией методом опорных векторов с ядерной функцией (kSVM). Модели валидировались путем 5-кратной кроссвалидации.
Точность классификации для 11 препаратов, полученная в ходе кросс-валидации, достигала $0,580 \pm 0,021$, что значительно превышает точность случайного классификатора, которая составляла $0,091 \pm 0,045$ $(p < 0,0001)$, и точность kSVM, равную $0,441 \pm 0,035$ $(p < 0,05)$. Получены t-SNE-карты параметров «бутылочного горлышка» сигналов интракраниальной ЭЭГ. Определена относительная близость кластеров сигналов в параметрическом пространстве.
В настоящем исследовании представлен оригинальный метод биопотенциал-опосредованного прогнозирования эффектов и механизма действия (взаимодействия лекарственного средства с мишенью). Метод использует сверточные нейронные сети в сочетании с модифицированным алгоритмом избирательной редукции параметров. ЭЭГ-сигналы, зарегистрированные после введения препаратов, были представлены в едином пространстве параметров в сжатой форме. Полученные данные указывают на возможность распознавания паттернов нейронального отклика в ответ на введение различных психотропных препаратов с помощью предложенного нейросетевого классификатора и кластеризации.
-
Моделирование реологических характеристик водных суспензий на основе наноразмерных частиц диоксида кремния
Компьютерные исследования и моделирование, 2024, т. 16, № 5, с. 1217-1252Реологическое поведение водных суспензий на основе наноразмерных частиц диоксида кремния сильно зависит от динамической вязкости, которая непосредственно влияет на применение наножидкостей. Целью данной работы являются разработка и валидация моделей для прогнозирования динамической вязкости от независимых входных параметров: концентрации диоксида кремния SiO2, кислотности рН, а также скорости сдвига $\gamma$. Проведен анализ влияния состава суспензии на ее динамическую вязкость. Выявлены статистически однородные по составу группы суспензий, в рамках которых возможна взаимозаменяемость составов. Показано, что при малых скоростях сдвига реологические свойства суспензий существенно отличаются от свойств, полученных на более высоких скоростях. Установлены значимые положительные корреляции динамической вязкости суспензии с концентрацией SiO2 и кислотностью рН, отрицательные — со скоростью сдвига $\gamma$. Построены регрессионные модели с регуляризацией зависимости динамической вязкости $\eta$ от концентраций SiO2, NaOH, H3PO4, ПАВ (поверхностно-активное вещество), ЭДА (этилендиамин), скорости сдвига $\gamma$. Для более точного прогнозирования динамической вязкости были обучены модели с применением алгоритмов нейросетевых технологий и машинного обучения (многослойного перцептрона MLP, сети радиальной базисной функции RBF, метода опорных векторов SVM, метода случайного леса RF). Эффективность построенных моделей оценивалась с использованием различных статистических метрик, включая среднюю абсолютную ошибку аппроксимации (MAE), среднюю квадратическую ошибку (MSE), коэффициент детерминации $R^2$, средний процент абсолютного относительного отклонения (AARD%). Модель RF показала себя как лучшая модель на обучающей и тестовой выборках. Определен вклад каждой компоненты в построенную модель, показано, что наибольшее влияние на динамическую вязкость оказывает концентрация SiO2, далее кислотность рН и скорость сдвига $\gamma$. Точность предлагаемых моделей сравнивается с точностью ранее опубликованных в литературе моделей. Результаты подтверждают, что разработанные модели можно рассматривать как практический инструмент для изучения поведения наножидкостей, в которых используются водные суспензии на основе наноразмерных частиц диоксида кремния.
Ключевые слова: наножидкость, концентрация SiO$_2$, кислотность рН, динамическая вязкость, регрессия, нейронные сети, машинное обучение. -
Перспективы использования космоснимков для прогнозирования загрязнения воздуха тяжелыми металлами
Компьютерные исследования и моделирование, 2018, т. 10, № 4, с. 535-544Просмотров за год: 21.Контроль за загрязнением воздуха имеет большое значение для стран Европы и Азии. В рамках Конвенции ООН по дальнему трансграничному переносу воздушных загрязнений (СLRTAP) реализуется программа UNECE ICP Vegetation, направленная на определение наиболее неблагополучных областей, создание региональных карт и улучшение понимания природы долгосрочных трансграничных загрязнений. В Объединенном институте ядерных исследований была разработана облачная платформа, предоставляющая участникам программы ICP Vegetation удобные инструменты для сбора, анализа и обработки данных мониторинга. В настоящее время в системе содержится информация о более чем 6000 точках пробоотбора в 40 регионах различных стран Европы и Азии.
Важным этапом контроля является моделирование загрязнений в местах, где частота исследований или плотность покрытия сети сбора образцов недостаточны. Одним из подходов к прогнозированию загрязнений является использование специализированных статистических моделей и методов машинного обучения совместно с различными количественными показателями точек сбора образцов и информацией о концентрациях элементов. Наиболее перспективным источником количественных показателей для обучения моделей являются космические снимки в различных спектрах. Обученная должным образом модель позволит получать прогноз по концентрациям элементов, используя исключительно космоснимки. Специализированная платформа Google Earth Engine предоставляет широкие возможности для анализа и обработки данных от более чем 100 различных проектов дистанционного зондирования земли, удобный интерфейс разработчика на JavaScript и программный интерфейс на Python для использования в сторонних приложениях.
В работе рассматривается возможность использования статистических показателей космоснимков, полученных от платформы Google Earth Engine, совместно с данными мониторинга состояния окружающей среды проекта ICP Vegetation для обучения моделей, способных прогнозировать концентрацию тяжелых металлов в определенных регионах.
-
Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.
-
Применение методов машинного обучения для сравнения компаний Арктической зоны РФ по экономическим критериям в соответствии с рейтингом Полярного индекса
Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 201-215В работе проведен сравнительный анализ предприятий Арктической зоны Российской Федерации (АЗ РФ) по экономическим показателям в соответствии с рейтингом Полярного индекса. В исследование включены числовые данные 193 предприятий, находящихся в АЗ РФ. Применены методы машинного обучения, как стандартные, из открытых ресурсов, так и собственные оригинальные методы — метод оптимально достоверных разбиений (ОДР), метод статистически взвешенных синдромов (СВС). Проведено разбиение с указанием максимального значения функционала качества, в данном исследовании использовалось простейшее семейство разнообразных одномерных разбиений с одной-единственной граничной точкой, а также семейство различных двумерных разбиений с одной граничной точкой по каждой из двух объединяющих переменных. Перестановочные тесты позволяют не только оценивать достоверность данных выявленных закономерностей, но и исключать из множества выявленных закономерностей разбиения с избыточной сложностью.
Использование метода ОДР на одномерных показателях выявило закономерности, которые связывают номер класса с экономическими показателями. Также в приведенном исследовании представлены закономерности, которые выявлены в рамках простейшей одномерной модели с одной граничной точкой и со значимостью не хуже чем $p < 0.001$.
Для достоверной оценки подобной диагностической способности использовали так называемый метод скользящего контроля. В результате этих исследований был выделен целый набор методов, которые обладали достаточной эффективностью.
Коллективный метод по результатам нескольких методов машинного обучения показал высокую значимость экономических показателей для разделения предприятий в соответствии с рейтингом Полярного индекса.
Наше исследование доказало и показало, что те предприятия, которые вошли в топ рейтинга Полярного индекса, в целом распознаются по финансовым показателям среди всех компаний Арктической зоны. Вместе с тем представляется целесообразным включение в анализ также экологических и социальных факторов.
-
Анализ эффективности методов машинного обучения в задаче распознавания жестов на основе данных электромиографических сигналов
Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 175-194При разработке систем человеко-машинных интерфейсов актуальной является задача распознавания жестов. Для выявления наиболее эффективного метода распознавания жестов был проведен анализ различных методов машинного обучения, используемых для классификации движений на основе электромиографических сигналов мышц. Были рассмотрены такие методы, как наивный байесовский классификатор (НБК), дерево решений, случайный лес, градиентный бустинг, метод опорных векторов, метод $k$-ближайших соседей, а также ансамбли методов (НБК и дерево решений, НБК и градиентный бустинг, градиентный бустинг и дерево решений). В качестве метода получения информации о жестах была выбрана электромиография. Такое решение не требует расположения руки в поле зрения камеры и может быть использовано для распознавания движений пальцев рук. Для проверки эффективности выбранных методов распознавания жестов было разработано устройство регистрации электромиографического сигнала мышц предплечья, которое включает в себя три электрода и ЭМГ-датчик, соединенный с микрокон- троллером и блоком питания. В качестве жестов были выбраны: сжатие кулака, знак «большой палец», знак «Виктория», сжатие указательного пальца и взмах рукой справа налево. Оценка эффективности методов классификации проводилась на основе значений доли правильных ответов, точности, полноты, а также среднего значения времени работы классификатора. Данные параметры были рассчитаны для трех вариантов расположения электромиографических электродов на предплечье. По результатам тести- рования, наиболее эффективными методами являются метод $k$-ближайших соседей, случайный лес и ансамбль НБК и градиентного бустинга, средняя точность которого для трех положений электродов составила 81,55 %. Также было определено положение электродов, при котором методы машинного обучения достигают максимального значения точности распознавания. При таком положении один из дифференциальных электродов располагается на месте пересечения глубокого сгибателя пальцев и длинного сгибателя большого пальца, второй — над поверхностным сгибателем пальцев
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"