Текущий выпуск Номер 5, 2024 Том 16

Все выпуски

Результаты поиска по 'отбор признаков':
Найдено статей: 8
  1. От редакции
    Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 5-8
  2. От редакции
    Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 245-248
  3. Многомерные данные, при использовании значительно большего количества признаков относительно меньшего числа наблюдений, порождают хорошо известную проблему переопределённой задачи. В связи с этим, представляется целесообразным описание данных в терминах меньшего числа мета-признаков, которые вычисляются при помощи так называемых матричных факторизаций. Такие факторизации способствуют уменьшению случайного шума при сохранении наиболее существенной информации. Три новых и взаимосвязанных метода предложены в этой статье: 1) факторизационный механизм градиентного спуска с двумя (согласно размерности микрочипа) гибкими и адаптируемыми параметрами обучения, включая явные формулы их автоматического пересчета, 2) непараметрический критерий для отбора количества факторов, и 3) неотрицательная модификация градиентной факторизации, которая не требует дополнительных вычислительных затрат в сравнении с базовой моделью. Мы иллюстрируем эффективность предложенных методов в приложении к задаче направляемой классификации данных в области биоинформатики.

    Цитирований: 4 (РИНЦ).
  4. В работе рассматривается комплексный подход к моделированию динамики генетической структуры и численности естественной популяции. Набор динамических моделей с различными типами естественного отбора применен для описания возможного механизма закрепления наблюдаемого в настоящее время генетического разнообразия по размеру помета в прибрежных, континентальных и искусственных популяциях песцов (Alopex lagopus, семейство Canidae, порядок Carnivora). Наиболее интересные результаты удалось получить на основе модели популяции, включающей две стадии развития; при этом анализировалась динамика генетической структуры популяции по генотипам, соответствующим различным репродуктивным способностям и выживаемостям детенышей на ранней стадии жизненного цикла, определяемым одним диаллельным геном. Эта модель позволяет получить мономорфизм по рассматриваемому признаку в популяциях прибрежных песцов, где пищевые ресурсы практически постоянны, и установление полиморфизма с циклическими колебаниями численности и частот аллелей рассматриваемого гена в континентальных популяциях, где происходят регулярные всплески численности грызунов — основного компонента пищи. В искусственных популяциях в результате селективного отбора, осуществляемого фермерами с целью увеличения репродуктивного успеха производителей, рассматриваемый ген оказывается плейотропным (т. е. определяющим выживаемость особей как на ранней, так и на поздней стадии жизненного цикла); применение соответствующей модели (с отбором по плейотропныму гену) позволяет получить адекватную скорость вытеснения аллеля, обуславливающего производство пометов малого размера.

    Просмотров за год: 7. Цитирований: 5 (РИНЦ).
  5. Бистабильность обнаруживается во множестве прикладных и теоретических исследований биологических систем (популяций, сообществ). В простейшем случае бистабильность проявляется в сосуществовании двух альтернативных устойчивых состояний равновесия системы, выбор между которыми зависит от начальных условий. Наличие бистабильности в простых моделях может привести к появлению квадростабильности при усложнении моделей, например при учете генетической, возрастной и пространственной структуры. Это обнаруживается в разных моделях и весьма разных содержательных задачах и, как правило, приводит к весьма интересным, часто контринтуитивным выводам. Обзору таких ситуаций посвящена данная работа. В ней рассмотрены бифуркации, приводящие к би- и квадростабильности в математических моделях следующих биологических объектов: система двух миграционно связанных популяций, находящихся под действием естественного отбора, все генетическое разнообразие которых представлено единственным диаллельным локусом с существенной разницей в приспособленностях для гомо- и гетерозигот; система двух миграционно связанных лимитированных популяций, описываемых моделью Базыкина или моделью Рикера; популяция с двумя стадиями развития и плотностно-зависимой регуляцией рождаемости, которая либо определяется только плотностью, либо дополнительно зависит от генетической структуры смежных поколений. Обнаружено, что все перечисленные модели имеют схожие сценарии рождения состояний равновесий, которые соответствуют формированию пространственно-временной неоднородности либо дифференциации особей разных поколений по признакам (первичной генетической дивергенции). Показано, что такая неоднородность является следствием локальной бистабильности и появляется в результате комбинации бифуркации вил (удвоения периода) и седло-узловой бифуркации.

  6. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

  7. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

  8. В статье обсуждается проблема влияния целей исследования на структуру многофакторной модели регрессионного анализа (в частности, на реализацию процедуры снижения размерности модели). Демонстрируется, как приведение спецификации модели множественной регрессии в соответствие целям исследования отражается на выборе методов моделирования. Сравниваются две схемы построения модели: первая не позволяет учесть типологию первичных предикторов и характер их влияния на результативные признаки, вторая схема подразумевает этап предварительного разбиения исходных предикторов на группы (в соответствии с целями исследования). На примере решения задачи анализа причин выгорания творческих работников показана важность этапа качественного анализа и систематизации априори отобранных факторов, который реализуется не вычислительными средствами, а за счет привлечения знаний и опыта специалистов в изучаемой предметной области.

    Представленный пример реализации подхода к определению спецификации регрессионной модели сочетает формализованные математико-статистические процедуры и предшествующий им этап классификации первичных факторов. Наличие указанного этапа позволяет объяснить схему управляющих (корректирующих) воздействий (смягчение стиля руководства и усиление одобрения приводят к снижению проявлений тревожности и стресса, что, в свою очередь, снижает степень выраженности эмоционального истощения участников коллектива). Предварительная классификация также позволяет избежать комбинирования в одной главной компоненте управляемых и неуправляемых, регулирующих и управляемых признаков-факторов, которое могло бы ухудшить интерпретируемость синтезированных предикторов.

    На примере конкретной задачи показано, что отбор факторов-регрессоров — это процесс, требующий индивидуального решения. В рассмотренном случае были последовательно использованы: систематизация признаков, корреляционный анализ, метод главных компонент, регрессионный анализ. Первые три метода позволили существенно сократить размерность задачи, что не повлияло на достижение цели, для которой эта задача была поставлена: были показаны существенные меры управляющего воздействия на коллектив, позволяющие снизить степень эмоционального выгорания его участников.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.