Текущий выпуск Номер 5, 2024 Том 16

Все выпуски

Результаты поиска по 'регрессия':
Найдено статей: 15
  1. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

  2. В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и разли- чия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p < 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.

  3. Разработана динамическая макромодельмиров ой динамики. В модели мир разбит на 19 регионов по географическому принципу согласно классификации Организации объединенных наций. Внутреннее развитие регионов описывается уравнениями разностного типа для демографических и экономических индикаторов, таких как численностьнас еления, валовой продукт, валовое накопление. Межрегиональные взаимодействия представляют собой агрегированные торговые потоки от региона к региону и описываются регрессионными уравнениями. В качестве регрессоров использовались время, валовой продукт экспортера и валовой продукт импортера. Рассматривалосьчеты ре типа: временная парная регрессия — зависимость торгового потока от времени, экспортная функция — зависимостьд оли торгового потока в валовом продукте экспортера от валового продукта импортера, импортная функция — зависимостьд оли торгового потока в валовой продукции импортера от валового продукта экспортера, множественная регрессия — зависимостьт оргового потока от валовых продуктов экспортера и импортера. Для каждого типа применялосьд ва вида функциональной зависимости: линейная и логарифмически-линейная, всего исследовано восемьв ариантов торгового уравнения. Проведено сравнение качества регрессионных моделей по коэффициенту детерминации. Расчеты показывают, что модель удовлетворительно аппроксимирует динамику монотонно меняющихся показателей. Проанализирована динамика немонотонных торговых потоков, для их аппроксимации предложено три вида функциональной зависимости от времени. Показано, что с 10%-й погрешностью множество внешнеторговых рядов может бытьприб лижено пространством семи главных компонент. Построен прогноз автономного развития регионов и глобальной динамики до 2040 года.

  4. В статье обсуждается проблема влияния целей исследования на структуру многофакторной модели регрессионного анализа (в частности, на реализацию процедуры снижения размерности модели). Демонстрируется, как приведение спецификации модели множественной регрессии в соответствие целям исследования отражается на выборе методов моделирования. Сравниваются две схемы построения модели: первая не позволяет учесть типологию первичных предикторов и характер их влияния на результативные признаки, вторая схема подразумевает этап предварительного разбиения исходных предикторов на группы (в соответствии с целями исследования). На примере решения задачи анализа причин выгорания творческих работников показана важность этапа качественного анализа и систематизации априори отобранных факторов, который реализуется не вычислительными средствами, а за счет привлечения знаний и опыта специалистов в изучаемой предметной области.

    Представленный пример реализации подхода к определению спецификации регрессионной модели сочетает формализованные математико-статистические процедуры и предшествующий им этап классификации первичных факторов. Наличие указанного этапа позволяет объяснить схему управляющих (корректирующих) воздействий (смягчение стиля руководства и усиление одобрения приводят к снижению проявлений тревожности и стресса, что, в свою очередь, снижает степень выраженности эмоционального истощения участников коллектива). Предварительная классификация также позволяет избежать комбинирования в одной главной компоненте управляемых и неуправляемых, регулирующих и управляемых признаков-факторов, которое могло бы ухудшить интерпретируемость синтезированных предикторов.

    На примере конкретной задачи показано, что отбор факторов-регрессоров — это процесс, требующий индивидуального решения. В рассмотренном случае были последовательно использованы: систематизация признаков, корреляционный анализ, метод главных компонент, регрессионный анализ. Первые три метода позволили существенно сократить размерность задачи, что не повлияло на достижение цели, для которой эта задача была поставлена: были показаны существенные меры управляющего воздействия на коллектив, позволяющие снизить степень эмоционального выгорания его участников.

  5. Тимирьянова В.М., Лакман И.А., Ларькин М.М.
    Прогнозирование розничной торговли на высокочастотных обезличенных данных
    Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1713-1734

    Развитие технологий определяет появление данных с высокой детализацией во времени и пространстве, что расширяет возможности анализа, позволяя рассматривать потребительские решения и конкурентное поведение предприятий во всем их многообразии, с учетом контекста территории и особенностей временных периодов. Несмотря на перспективность таких исследований, в настоящее время в научной литературе они представлены ограниченно, что определяется их особенностями. С целью их раскрытия в статье обращается внимание на ключевые проблемы, возникающие при работе с обезличенными высокочастотными данными, аккумулируемыми фискальными операторами, и направления их решения, проводится спектр тестов, направленный на выявление возможности моделирования изменений потребления во времени и пространстве. Особенности нового вида данных рассмотрены на примере реальных обезличенных данных, полученных от оператора фискальных данных «Первый ОФД» (АО «Энергетические системы и коммуникации»). Показано, что одновременно со спектром свойственных высокочастотным данным проблем существуют недостатки, связанные с процессом формирования данных на стороне продавцов, требующие более широкого применения инструментов интеллектуального анализа данных. На рассматриваемых данных проведена серия статистических тестов, включая тест на наличие ложной регрессии, ненаблюдаемых эффектов в остатках модели, последовательной корреляции и кросс-секционной зависимости остатков панельной модели, авторегрессии первого порядка в случайных эффектах, сериальной корреляции на первых разностях панельных данных и др. Наличие пространственной автокорреляции данных тестировалось с помощью модифицированных тестов множителей Лагранжа. Проведенные тесты показали наличие последовательной корреляции и пространственной зависимости данных, обуславливающих целесообразность применения методов панельного и пространственного анализа применительно к высокочастотным данным, аккумулируемым фискальными операторами. Построенные модели позволили обосновать пространственную связь роста продаж и ее зависимость от дня недели. Ограничением для повышения предсказательной возможности построенных моделей и последующего их усложнения, за счет включения объясняющих факторов, стало отсутствие в открытом доступе статистики, сгруппированной в необходимой детализации во времени и пространстве, что определяет актуальность формирования баз высокочастотных географически структурированных данных.

Страницы: предыдущая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.