Текущий выпуск Номер 1, 2024 Том 16

Все выпуски

Результаты поиска по 'Twitter':
Найдено статей: 4
  1. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Zakharova E.M.
    Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170

    Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.

  2. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183

    Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.

  3. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195

    Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.

  4. Евин И.А., Хабибуллин Т.Ф.
    Социальные сети
    Компьютерные исследования и моделирование, 2012, т. 4, № 2, с. 423-430

    В статье дан обзор основных результатов изучения как реальных социальных сетей (сетей сотрудничества ученых и актеров, сетей цитирования научных публикаций, сетей друзей и знакомых и т. д.), так и современных онлайновых социальных сетей (Twitter, Facebook и т. д.) с точки зрения теории сложных сетей. На основе собственных исследований авторами выявлены особенности восприятия некоторых сложных сетей.

    Yevin I.A., Khabibullin T.F.
    Social networks
    Computer Research and Modeling, 2012, v. 4, no. 2, pp. 423-430

    The paper reviews the main results of the study of real social networks (networks of collaboration between scientists and actors, networks of citation of scientific publications, networks of friends and acquaintances, etc.) and modern online social networks (Twitter, Facebook etc.) from the complex networks theory standpoint. Based on original research by the authors, it reveals peculiarities of perception of certain complex networks.

    Просмотров за год: 6. Цитирований: 6 (РИНЦ).

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.