Текущий выпуск Номер 6, 2025 Том 17

Все выпуски

Результаты поиска по 'разметка данных':
Найдено статей: 12
  1. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

  2. Работа посвящена анализу медико-биологических данных, получаемых с помощью локомоторных тренировок и тестирований космонавтов, проводимых как на Земле, так и во время полета. Данные эксперименты можно описать как движение космонавта по беговой дорожке согласно прописанному регламенту в различных скоростных режимах, во время которых не только записывается скорость, но и собирается ряд показателей, включающих частоту сердечных сокращений, величину давления на опору и пр. С целью анализа динамики состояния космонавта на протяжении длительного времени, для независимой оценки целевых показателей необходимо проводить качественную сегментацию режимов его движения. Особую актуальность данная задача приобретает при разработке автономной системы жизнеобеспечения космонавтов, которая будет действовать без сопровождения персонала с Земли. При сегментации целевых данных сложность заключается в наличии различных аномалий, включая отход испытуемого от заранее прописанного регламента, переходы между режимами движения произвольного вида и длительности, аппаратные сбои и пр. Статья включает в себя подробный обзор ряда современных ретроспективных (оффлайн) непараметрических методов поиска многократных разладок во временном ряде, где под разладкой понимается резкое изменение свойств наблюдаемого ряда, происходящее в неизвестный заранее момент времени. Особое внимание уделено алгоритмам и статистическим показателям, которые определяют степень однородности данных, а также способам поиска точек разладки. В данной работе рассматриваются подходы, основанные на методах динамического программирования и скользящего окна. Вторая часть статьи посвящена численному моделированию представленных методов на характерных примерах экспериментальных данных, включающих как простые, так и сложные скоростные профили движения. Проведенный анализ позволил выделить методы, которые в дальнейшем будут проанализированы на полном корпусе данных. Предпочтение отдается методам, обеспечивающим близость разметки к заданному эталону, потенциально позволяющим детектировать обе границы переходных процессов, а также обладающим робастностью относительно внутренних параметров.

Страницы: предыдущая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.