Все выпуски
- 2026 Том 18
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Computational treatment of natural language text for intent detection
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1539-1554Intent detection plays a crucial role in task-oriented conversational systems. To understand the user’s goal, the system relies on its intent detector to classify the user’s utterance, which may be expressed in different forms of natural language, into intent classes. However, lack of data, and the efficacy of intent detection systems has been hindered by the fact that the user’s intent text is typically characterized by short, general sentences and colloquial expressions. The process of algorithmically determining user intent from a given statement is known as intent detection. The goal of this study is to develop an intent detection model that will accurately classify and detect user intent. The model calculates the similarity score of the three models used to determine their similarities. The proposed model uses Contextual Semantic Search (CSS) capabilities for semantic search, Latent Dirichlet Allocation (LDA) for topic modeling, the Bidirectional Encoder Representations from Transformers (BERT) semantic matching technique, and the combination of LDA and BERT for text classification and detection. The dataset acquired is from the broad twitter corpus (BTC) and comprises various meta data. To prepare the data for analysis, a pre-processing step was applied. A sample of 1432 instances were selected out of the 5000 available datasets because manual annotation is required and could be time-consuming. To compare the performance of the model with the existing model, the similarity scores, precision, recall, f1 score, and accuracy were computed. The results revealed that LDA-BERT achieved an accuracy of 95.88% for intent detection, BERT with an accuracy of 93.84%, and LDA with an accuracy of 92.23%. This shows that LDA-BERT performs better than other models. It is hoped that the novel model will aid in ensuring information security and social media intelligence. For future work, an unsupervised LDA-BERT without any labeled data can be studied with the model.
Ключевые слова: hate speech, intent classification, Twitter posts, sentiment analysis, opinion mining, intent identification from Twitter posts.
Computational treatment of natural language text for intent detection
Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1539-1554Intent detection plays a crucial role in task-oriented conversational systems. To understand the user’s goal, the system relies on its intent detector to classify the user’s utterance, which may be expressed in different forms of natural language, into intent classes. However, lack of data, and the efficacy of intent detection systems has been hindered by the fact that the user’s intent text is typically characterized by short, general sentences and colloquial expressions. The process of algorithmically determining user intent from a given statement is known as intent detection. The goal of this study is to develop an intent detection model that will accurately classify and detect user intent. The model calculates the similarity score of the three models used to determine their similarities. The proposed model uses Contextual Semantic Search (CSS) capabilities for semantic search, Latent Dirichlet Allocation (LDA) for topic modeling, the Bidirectional Encoder Representations from Transformers (BERT) semantic matching technique, and the combination of LDA and BERT for text classification and detection. The dataset acquired is from the broad twitter corpus (BTC) and comprises various meta data. To prepare the data for analysis, a pre-processing step was applied. A sample of 1432 instances were selected out of the 5000 available datasets because manual annotation is required and could be time-consuming. To compare the performance of the model with the existing model, the similarity scores, precision, recall, f1 score, and accuracy were computed. The results revealed that LDA-BERT achieved an accuracy of 95.88% for intent detection, BERT with an accuracy of 93.84%, and LDA with an accuracy of 92.23%. This shows that LDA-BERT performs better than other models. It is hoped that the novel model will aid in ensuring information security and social media intelligence. For future work, an unsupervised LDA-BERT without any labeled data can be studied with the model.
-
Эффекты воздействия электрического поля на химические структуры
Компьютерные исследования и моделирование, 2014, т. 6, № 5, с. 705-718Волны возбуждения являются прообразом самоорганизующихся динамических структур в неравновесных системах. Они характеризуются своей собственной внутренней динамикой, приводящей к формированию бегущих волн различных типов и форм. Яркие примеры — это вращающиеся спирали и скрученные свитки. Интересная и сложная задача — найти способы управления их поведением, применяя внешние сигналы, влияющие на распространяющиеся волны. В качестве такого воздействия мы используем внешние электрические поля, наложенные на возбудимую реакцию Белоусова–Жаботинского (БЖ). Существенные эффекты влияния полей на волны включают изменение скорости волны, обращение направления распространения, взаимное уничтожение вращающихся в противоположных направлениях спиральных волн и переориентацию нитей скрученных свитков. Эти эффекты могут быть объяснены в численных экспериментах, при этом существенную роль играет отрицательно заряженный ингибиторбромид. Эффекты электрического поля также были исследованы в биологических возбудимых средах, таких как социальные амебы Dictyostelium discoideum. Совсем недавно мы начали исследовать влияние электрического поля на реакцию БЖ, протекающую в водно-масляной микроэмульсии. Удалось наблюдать дрейф сложных структур, а также изменение вязкости и электрической проводимости. Мы обсуждаем предположение, что эта система может выступать в качестве модели для дальнодействующего взаимодействия между нейронами.
Electric field effects in chemical patterns
Computer Research and Modeling, 2014, v. 6, no. 5, pp. 705-718Просмотров за год: 8.Excitation waves are a prototype of self-organized dynamic patterns in non-equilibrium systems. They develop their own intrinsic dynamics resulting in travelling waves of various forms and shapes. Prominent examples are rotating spirals and scroll waves. It is an interesting and challenging task to find ways to control their behavior by applying external signals, upon which these propagating waves react. We apply external electric fields to such waves in the excitable Belousov–Zhabotinsky (BZ) reaction. Remarkable effects include the change of wave speed, reversal of propagation direction, annihilation of counter-rotating spiral waves and reorientation of scroll wave filaments. These effects can be explained in numerical simulations, where the negatively charged inhibitor bromide plays an essential role. Electric field effects have also been investigated in biological excitable media such as the social amoebae Dictyostelium discoideum. Quite recently we have started to investigate electric field effect in the BZ reaction dissolved in an Aerosol OT water-in-oil microemulsion. A drift of complex patterns can be observed, and also the viscosity and electric conductivity change. We discuss the assumption that this system can act as a model for long range communication between neurons.
-
Исследование влияния миграции на социальную напряженность с использованием модели сплошной социальной стратификации
Компьютерные исследования и моделирование, 2022, т. 14, № 3, с. 661-673Фоновая социальная напряженность общества может быть количественно оценена по различным статистическим индикаторам. Модели, прогнозирующие динамику социальной напряженности, успешно применяются для описания различных социальных процессов. Когда количество рассматриваемых групп общества мало, динамику соответствующих индикаторов можно описать при помощи системы обыкновенных дифференциальных уравнений. При увеличении количества взаимодействующих элементов резко возрастает сложность задач, что существенно затрудняет их аналитическое исследование. Модель сплошной социальной стратификации получаетсяв результате перехода от дискретной цепочки взаимодействующих социальных слоев к их непрерывному распределению на некотором интервале, то есть перехода к модели сплошной среды. В этом случае напряженность распространяется локально, но в действительности элита общества влияет на все слои через средства массовой информации, а также интернет позволяет влиять всем группам на другие. Эти факторы можно учесть через слагаемое модели, описывающее негативное внешнее воздействие. В настоящей работе предложена модель сплошной социальной стратификации, описывающая динамику системы из двух социумов, связанных через процесс миграции населения. Предполагается, что из социального слоя системы-донора с наибольшей напряженностью происходит отток людей, переносящих свою напряженность в систему-акцептор, причем при миграции люди попадают в более бедные слои принимающего общества. Рассматриваетсяслуч ай пространственно однородных коэффициентов, что соответствует частному случаю небольшого социума. При помощи метода конечных объемов построена пространственнаяди скретизация задачи, корректно отражающая конечную скорость распространения напряженности в обществе. Выполнена проверка выбранной дискретизации путем сравненияч исленного решения с точными решениями вспомогательного уравнения нелинейной диффузии. Проведено численное исследование системы с миграцией при различных значениях параметров, проанализировано влияние интенсивности миграции на принимающее общество, найдены условия дестабилизации общества акцептора под влиянием миграции. Полученные в работе результаты могут быть применены при дальнейшем исследовании модели в случае пространственно неоднородных коэффициентов, что соответствует более реалистичной картине общества.
Ключевые слова: социальнаяна пряженность, модель сплошной социальной стратификации, уравнение нелинейной диффузии, метод конечных объемов.
Analysing the impact of migration on background social strain using a continuous social stratification model
Computer Research and Modeling, 2022, v. 14, no. 3, pp. 661-673The background social strain of a society can be quantitatively estimated using various statistical indicators. Mathematical models, allowing to forecast the dynamics of social strain, are successful in describing various social processes. If the number of interacting groups is small, the dynamics of the corresponding indicators can be modelled with a system of ordinary differential equations. The increase in the number of interacting components leads to the growth of complexity, which makes the analysis of such models a challenging task. A continuous social stratification model can be considered as a result of the transition from a discrete number of interacting social groups to their continuous distribution in some finite interval. In such a model, social strain naturally spreads locally between neighbouring groups, while in reality, the social elite influences the whole society via news media, and the Internet allows non-local interaction between social groups. These factors, however, can be taken into account to some extent using the term of the model, describing negative external influence on the society. In this paper, we develop a continuous social stratification model, describing the dynamics of two societies connected through migration. We assume that people migrate from the social group of donor society with the highest strain level to poorer social layers of the acceptor society, transferring the social strain at the same time. We assume that all model parameters are constants, which is a realistic assumption for small societies only. By using the finite volume method, we construct the spatial discretization for the problem, capable of reproducing finite propagation speed of social strain. We verify the discretization by comparing the results of numerical simulations with the exact solutions of the auxiliary non-linear diffusion equation. We perform the numerical analysis of the proposed model for different values of model parameters, study the impact of migration intensity on the stability of acceptor society, and find the destabilization conditions. The results, obtained in this work, can be used in further analysis of the model in the more realistic case of inhomogeneous coefficients.
-
Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.
Ключевые слова: анализ текста, обработка естественного языка, активность в Twitter, ча- стотный анализ, отбор признаков, задача классификации, финансовые рынки, бенчмарк, случайный лес, решающие деревья.
Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.
-
Стохастическая модель числа сторонников политического лидера в цифровом публичном пространстве
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 979-997В представленной статье мы исследуем процесс изменения рейтинга одобрения политического лидера под влиянием процессов, протекающих в цифровом публичном пространстве. Драйвером указанных изменений служит взаимодействие пользователей онлайн-площадок (информационных и новостных ресурсов, блогов, социальных сетей), в результате которого они могут обмениваться друг с другом мнениями и формулировать свою позицию в отношении политика. Помимо межличностного взаимодействия мы рассмотрим такие факторы, как информационное воздействие, выражающееся в создании информационного потока, имеющего заданную мощность и тональность (положительную или отрицательную, в контексте влияния на имидж политического лидера), а также наличие группы агентов (лидеров мнений), оказывающих поддержку политику или же, наоборот, негативно влияющих на его представление в медийном пространстве.
Математической основой представленного исследования является модель Кирмана, имеющая истоки в биологии и первоначально нашедшая свое применение в экономике. В рамках даннойм одели считается, что каждый участник находится в одном из двух возможных состояний, а также задается скачкообразный марковский процесс, описывающий переходы между этими состояниями. Для рассматриваемой нами задачи данными состояниями являются 0 или 1, в зависимости от того, является ли конкретный агент сторонником политика и одобряет его деятельность или же нет. Пользуясь аппаратом теории марковских процессов, мы находим его диффузионное приближение, известное как процесс Якоби. При помощи спектрального разложения для инфинитезимального оператора данного процесса мы имеем возможность найти аналитическое представление для плотности переходных вероятностей.
Анализируя вероятности, полученные указанным образом, можно оценить влияние отдельных факторов модели: мощность и тональность новостных сообщений, доступных для пользователей онлайн-пространства и релевантных для задач формирования рейтинга, а также численности сторонников или противников политика. Далее, пользуясь найденными собственными функциями и значениями, мы выводим выражения для оценки условных математических ожиданий рейтинга политика, что может служить основой для построения прогнозов, важных для задач формирования стратегии представления политического лидера в онлайн-среде.
Ключевые слова: рейтинг одобрения, политическое лидерство, информационное воздействие, стадное поведение, марковскийпр оцесс.
Stochastic model of voter dynamics in online media
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 979-997In the present article we explore the process of changing the level of approval of a political leader under the influence of the processes taking place in online platforms (social networks, forums, etc.). The driver of these changes is the interaction of users, through which they can exchange opinions with each other and formulate their position in relation to the political leader. In addition to interpersonal interaction, we will consider such factors as the information impact, expressed in the creation of an information flow with a given power and polarity (positive or negative, in the context of influencing the image of a political leader), as well as the presence of a group of agents (opinion leaders), supporting the leader, or, conversely, negatively affecting its representation in the media space.
The mathematical basis of the presented research is the Kirman model, which has its roots in biology and initially found its application in economics. Within the framework of this model it is considered that each user is in one of the two possible states, and a Markov jump process describing transitions between these states is given. For the problem under consideration, these states are 0 or 1, depending on whether a particular agent is a supporter of a political leader or not. For further research, we find its diffusional approximation, known as the Jacoby process. With the help of spectral decomposition for the infinitesimal operator of this process we have an opportunity to find an analytical representation for the transition probability density.
Analyzing the probabilities obtained in this way, we can assess the influence of individual factors of the model: the power and direction of the information flow, available to online users and relevant to the tasks of rating formation, as well as the number of supporters or opponents of the politician. Next, using the found eigenfunctions and eigenvalues, we derive expressions for the evaluation of conditional mathematical expectations of a politician’s rating, which can serve as a basis for building forecasts that are important for the formation of a strategy of representing a political leader in the online environment.
-
Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.
Ключевые слова: анализ текста, обработка естественного языка, активность в Twitter, частотный анализ, отбор признаков, задача классификации, финансовые рынки.
Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.
-
Динамика активности в виртуальных сетях: сравнение модели распространения эпидемии и модели возбудимой среды
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1485-1499Модели распространения эпидемий широко применяются для моделирования социальной активности, например распространения слухов или паники. С другой стороны, для моделирования распространения активности традиционно используются модели возбудимых сред. Проведено моделирование распространения активности в виртуальном сообществе в рамках двух моделей: модели распространения эпидемий SIRS и модели возбудимой среды Винера – Розенблюта. Использованы сетевые версии этих моделей. Сеть предполагалась неоднородной: каждый элемент сети обладает индивидуальным набором характеристик, что соответствует различным психологическим типам членов сообщества. Структура виртуальной сети полагается соответствующей безмасштабной сети. Моделирование проводилось на безмасштабных сетях с различными значениями средней степени вершин. Дополнительно рассмотрен частный случай — полный граф, соответствующий узкой профессиональной группе, когда каждый член группы взаимодействует с каждым. Участники виртуального сообщества могут находиться в одном из трех состояний: 1) потенциальная готовность к восприятию определенной информации; 2) активный интерес к этой информации; 3) полное безразличие к этой информации. Эти состояния вполне соответствуют состояниям, которые обычно используют в моделях распространения эпидемий: 1) восприимчивый к ин- фекции субъект, 2) больной, 3) переболевший и более невосприимчивый к инфекции в силу приобретенного иммунитета или смерти от болезни. Сопоставление двух моделей показало их близость как на уровне формулировки основных положений, так и на уровне возможных режимов. Распространение активности по сети аналогично распространению инфекционных заболеваний. Показано, что активность в виртуальной сети может испытывать колебания или затухать.
Ключевые слова: модель Винера – Розенблюта, модель SIRS, клеточный автомат, безмасштабная сеть, возбудимая среда, моделирование распространения эпидемий, дифференциально-разностные уравнения.
Activity dynamics in virtual networks: an epidemic model vs an excitable medium model
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1485-1499Epidemic models are widely used to mimic social activity, such as spreading of rumors or panic. Simultaneously, models of excitable media are traditionally used to simulate the propagation of activity. Spreading of activity in the virtual community was simulated within two models: the SIRS epidemic model and the Wiener – Rosenblut model of the excitable media. We used network versions of these models. The network was assumed to be heterogeneous, namely, each element of the network has an individual set of characteristics, which corresponds to different psychological types of community members. The structure of a virtual network relies on an appropriate scale-free network. Modeling was carried out on scale-free networks with various values of the average degree of vertices. Additionally, a special case was considered, namely, a complete graph corresponding to a close professional group, when each member of the group interacts with each. Participants in a virtual community can be in one of three states: 1) potential readiness to accept certain information; 2) active interest to this information; 3) complete indifference to this information. These states correspond to the conditions that are usually used in epidemic models: 1) susceptible to infection, 2) infected, 3) refractory (immune or death due to disease). A comparison of the two models showed their similarity both at the level of main assumptions and at the level of possible modes. Distribution of activity over the network is similar to the spread of infectious diseases. It is shown that activity in virtual networks may experience fluctuations or decay.
-
Автоматизированное выявление противоречивости в контенте социальных медиа: подход на основе предварительно обученных моделей
Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 501-517Обнаружение противоречивости в онлайн-дискурсе имеет важное значение для управления связями с общественностью, что позволяет информировать различные процессы от законотворчества до предпринимательства. В данной работе предлагается подход к обнаружению противоречивости в онлайн-контенте на основе анализа выражаемых эмоций. Противоречивость онлайн-контента определяется как феномен провоцирования разногласий и конфликтов в обсуждениях. Данная работа развивает предыдущие семантические методы, анализируя численные оценки именно эмоционального окраса сообщений. В качестве инструментов обнаружения противоречивости рассматриваются современные языковые модели для распознавания эмоций и распознавания именованных сущностей. Результаты работы этих моделей были агрегированы по сущностям для оценки их эмоциональной коннотации. Был предложен показатель эмоциональной дивергенции, основанный на дисперсии эмоций, для количественной оценки противоречивости контента. Затем сущности с достаточно высокой эмоциональной дивергенцией по отношению к специфике коммуникаций в рамках сообщества были отобраны в качестве маркеров противоречивости. Проведены эксперименты на данных Reddit, связанных с политическим кризисом в Шри-Ланке 2022 года, которые подтверждают возможность показателя эмоциональной дивергенции обнаруживать противоречивость. Всего было собрано два набора данных с использованием различных методологий: одна была направлена на извлечение более ранних сообщений, а другая была предназначена для сбора более свежих записей. Собранные данные включали обсуждения политики, общественных деятелей, организаций и локаций, связанных с обозначенным кризисом. При измерении на данных с ручной разметкой, предложенный метод достиг значения полноты 0,705 и точности около 0,496 для первого набора данных, в то время как для второго набора были зафиксированы значения полноты 0,716 и точности 0,436. Основными факторами, ограничивающими точность, стали качество низлежащих моделей и ложные срабатывания: широко обсуждаемые, но непротиворечивые маркеры. Наконец, было установлено, что изучение типичного распределения эмоций в контенте социальных медиа может быть полезным для повышения качества обнаружения противоречивости.
Ключевые слова: обнаружение противоречивости, социальные медиа, обработка естественного языка, анализ тональности, распознавание именованных сущностей.
Semi-automated detection of controversy in social media content: an approach based on pre-trained models
Computer Research and Modeling, 2026, v. 18, no. 2, pp. 501-517Detecting controversy in online discussions is critical for managing public relations, as it helps inform various processes from policymaking to business. This work aims to expand approaches to online controversy detection based on the expressed emotions. Controversy was defined as an online content phenomenon of provoking disagreements and conflict. This study builds upon prior semantic methods by analyzing estimates of emotional connotations of messages. Modern language models for emotion recognition and named entity recognition are explored as tools of controversy detection. The outputs of these models were aggregated by entity to estimate the entity’s emotional connotation. The emotional divergence score based on the dispersion of emotions was proposed to quantify controversy in user content. Then, entities with sufficiently high emotional divergence relative to the domain of discussions were selected as markers of controversy. A case study of Reddit data related to Sri-Lankan 2022 political crisis was conducted, showing the capabilities of emotional divergence score in controversy detection. A total of two datasets were collected with different methodologies: one aimed at collecting earlier messages and another aimed at collecting more recent ones. The collected data contained discussions of policy, public figures, organizations and locations tied to the crisis. When measured on manually annotated data samples, the proposed method achieved a recall value of 0.705 and a precision value close to 0.496 for the first dataset, while recall of 0.716 and precision of 0.436 were recorded for the second dataset. The main factors that limit the precision were found to be the quality of underlying models and false positives: highly discussed non-controversial markers. Lastly, it was identified that a study of regular emotional distribution of social media content may be helpful for improving controversy detection quality.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"





