Текущий выпуск Номер 1, 2024 Том 16

Все выпуски

Результаты поиска по 'случайный лес':
Найдено статей: 7
  1. От редакции
    Компьютерные исследования и моделирование, 2022, т. 14, № 6, с. 1217-1219
  2. Тиньков О.В., Полищук П.Г., Хачатрян Д.С., Колотаев А.В., Балаев А.Н., Осипов В.Н., Григорьев В.Ю.
    Количественный анализ «структура – противоопухолевая активность» и рациональный молекулярный дизайн бифункциональных VEGFR-2/HDAC-ингибиторов
    Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 911-930

    Ингибиторы гистондеацетилаз (HDACi) рассматриваются в качестве перспективного класса препаратов для лечения рака из-за их влияния на рост клеток, дифференцировку и апоптоз. Ангиогенез играет важную роль в росте солидных опухолей и развитии метастазов. Фактор роста эндотелия сосудов (VEGF) является ключевым ангиогенным агентом, который секретируется злокачественными опухолями, что индуцирует пролиферацию и миграцию эндотелиальных клеток сосудов. В настоящее время наиболее перспективной стратегией в борьбе с онкологическими заболеваниями является создание гибридных лекарств, одновременно действующих на несколько физиологических мишеней. Значительный интерес с точки зрения создания бифункциональных противоопухолевых средств представляют соединения, содержащие одновременно N-фенил-4-аминохиназолин и гидроксамовую кислоту, так как данные фрагменты по отдельности присутствуют в уже успешно применяемых противоопухолевых лекарственных средствах. В этой связи в ходе литературного анализа была сформирована выборка из 42 соединений, содержащих указанные молекулярные фрагменты и обладающих экспериментальными данными по ингибированию HDAC, VEGFR-2 и росту клеток рака легкого человека MCF-7. С использованием симплексных дескрипторов и метода опорных векторов (Support Vector Machine, SVM) для указанной выборки, предварительно разделенной на обучающий и тестовый наборы, были построены удовлетворительные (R2test = 0.64–0.87) модели количественной связи «структура–активность» (Quantitative Structure- Activity Relationship, QSAR). Для полученных QSAR-моделей была проведена структурная интерпретация. Было оценено согласованное влияние различных молекулярных фрагментов на увеличение противоопухолевой активности исследуемых соединений. Среди заместителей N-фенильного фрагмента можно выделить положительный вклад брома в пара-положении для всех трех видов активности. По результатам интерпретации был проведен рациональный молекулярный дизайн и предложены перспективные соединения. Для сравнительного QSAR-исследования использованы физико-химические дескрипторы, рассчитываемые программой HYBOT, метод случайного леса (Random Forest, RF), а также онлайн-версия экспертной системы OCHEM (https://ochem.eu). При моделировании OCHEM были выбраны PyDescriptor-дескрипторы и метод экстремального градиентного бустинга. Кроме того, полученные с помощью экспертной системы OCHEM модели были использованы для виртуального скрининга 300 соединений с целью отбора перспективных VEGFR-2/HDAC-ингибиторов для последующего синтеза и испытаний.

  3. При моделировании турбулентных течений неизбежно приходится сталкиваться с выбором между точностью и скоростью проведения расчетов. Так, DNS- и LES-модели позволяют проводить более точные расчеты, но являются более вычислительно затратными, чем RANS-модели. Поэтому сейчас RANS- модели являются наиболее часто используемыми при проведении практических расчетов. Но и расчеты с применением RANS-моделей могут быть значительно вычислительно затратными для задач со сложной геометрией или при проведении серийных расчетов по причине необходимости разрешения пристенного слоя. Существуют подходы, позволяющие значительно ускорить вычисления для RANS-моделей. Например, пристеночные функции или методы, основанные на декомпозиции расчетной области. Тем не менее они неизбежно теряют в точности за счет упрощения модели в пристенной области. Для того чтобы одновременно получить и вычислительно эффективную и более точную модель, может быть построена суррогатная модель на основании упрощенной модели и с использованием знаний о предыдущих расчетах, полученных более точной моделью, например из некоторых результатов серийных расчетов.

    В статье строится оператор перехода, позволяющий по результатам расчетов менее точной модели получить поле течения как при применении более точной модели. В данной работе результаты расчетов, полученные с помощью менее точной модели Спаларта–Аллмараса с применением пристенной декомпозиции, уточняются на основании расчетов схожих течений, полученных с помощью базовой модели Спаларта–Аллмараса с подробным разрешением пристенной области, с помощью методов машинного обучения. Оператор перехода от уточняемой модели к базовой строится локальным образом. То есть для уточнения результатов расчета в каждой точке расчетной области используются значения переменных пространства признаков (сами переменные поля и их производные) в этой точке. Для построения оператора используется алгоритм Random Forest. Эффективность и точность построенной суррогатной модели демонстрируется на примере двумерной задачи сверхзвукового турбулентного обтекания угла сжатия при различных числах Рейнольдса. Полученный оператор применяется к решению задач интерполяции и экстраполяции по числу Рейнольдса, также рассматривается топологический случай — интерполяция и экстраполяция по величине угла сжатия $\alpha$.

  4. Уифтер Т.Т., Разумный Ю.Н., Орловский А.В., Лобанов В.К.
    Мониторинг распространения борщевика Сосновского с использованием алгоритма машинного обучения «случайный лес» в Google Earth Engine
    Компьютерные исследования и моделирование, 2022, т. 14, № 6, с. 1357-1370

    Изучение спектрального отклика растений на основе данных, собранных с помощью дистанционного зондирования, имеет большой потенциал для решения реальных проблем в различных областях исследований. В этом исследовании мы использовали спектральные свойства для идентификации инвазивного растения — борщевика Сосновского — по спутниковым снимкам. Борщевик Сосновского — инвазивное растение, которое наносит много вреда людям, животным и экосистеме в целом. Мы использовали выборочные данные о геолокации мест произрастания борщевика в Московской области, собранные с 2018 по 2020 год, и спутниковые снимки Sentinel-2 для спектрального анализа с целью его обнаружения на снимках. Мы развернули модель машинного обучения Random Forest (RF) на облачной платформе Google Earth Engine (GEE). Алгоритм обучается на наборе данных, состоящем из 12 каналов спутниковых снимков Sentinel-2, цифровой модели рельефа и некоторых спектральных индексов, которые используются в алгоритме в качестве параметров. Используемый подход заключается в выявлении биофизических параметров борщевика Сосновского по его коэффициентам отражения с уточнением радиочастотной модели непосредственно по набору данных. Наши результаты наглядно демонстрируют насколько сочетание методов дистанционного зондирования и машинного обучения может помочь в обнаружении борщевика и контроле его инвазивного распространения. Наш подход обеспечивает высокую точность обнаружения очагов произрастания борщевика Сосновского, составляющую 96,93 %.

  5. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

  6. Козырь П.С., Савельев А.И.
    Анализ эффективности методов машинного обучения в задаче распознавания жестов на основе данных электромиографических сигналов
    Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 175-194

    При разработке систем человеко-машинных интерфейсов актуальной является задача распознавания жестов. Для выявления наиболее эффективного метода распознавания жестов был проведен анализ различных методов машинного обучения, используемых для классификации движений на основе электромиографических сигналов мышц. Были рассмотрены такие методы, как наивный байесовский классификатор (НБК), дерево решений, случайный лес, градиентный бустинг, метод опорных векторов, метод $k$-ближайших соседей, а также ансамбли методов (НБК и дерево решений, НБК и градиентный бустинг, градиентный бустинг и дерево решений). В качестве метода получения информации о жестах была выбрана электромиография. Такое решение не требует расположения руки в поле зрения камеры и может быть использовано для распознавания движений пальцев рук. Для проверки эффективности выбранных методов распознавания жестов было разработано устройство регистрации электромиографического сигнала мышц предплечья, которое включает в себя три электрода и ЭМГ-датчик, соединенный с микрокон- троллером и блоком питания. В качестве жестов были выбраны: сжатие кулака, знак «большой палец», знак «Виктория», сжатие указательного пальца и взмах рукой справа налево. Оценка эффективности методов классификации проводилась на основе значений доли правильных ответов, точности, полноты, а также среднего значения времени работы классификатора. Данные параметры были рассчитаны для трех вариантов расположения электромиографических электродов на предплечье. По результатам тести- рования, наиболее эффективными методами являются метод $k$-ближайших соседей, случайный лес и ансамбль НБК и градиентного бустинга, средняя точность которого для трех положений электродов составила 81,55 %. Также было определено положение электродов, при котором методы машинного обучения достигают максимального значения точности распознавания. При таком положении один из дифференциальных электродов располагается на месте пересечения глубокого сгибателя пальцев и длинного сгибателя большого пальца, второй — над поверхностным сгибателем пальцев

  7. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.