Текущий выпуск Номер 3, 2024 Том 16

Все выпуски

Результаты поиска по 'data sampling':
Найдено статей: 33
  1. Горшенин А.К., Королев В.Ю., Малахов Д.В., Скворцова Н.Н.
    Об исследовании плазменной турбулентности на основе анализа спектров
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 793-802

    В статье рассмотрены примеры анализа спектров экспериментальных данных для выявления характерных структур процессов, формирующих турбулентность в плазме. Основу метода составляет использование оригинального алгоритма, идеологически близкого к бутстреппроцедуре для одновыборочной задачи. В качестве базовой модели для описания тонкой структуры стохастических процессов предлагаются конечные сдвиг-масштабные смеси нормальных законов. Для отыскания статистических оценок (максимального правдоподобия) предполагается использование широко известного EM-алгоритма. Для нескольких серий спектров, полученных для разных режимов низкочастотной плазменной турбулентности, демонстрируется эффективность использования предложенного метода исследования.

    Gorshenin A.K., Korolev V.Y., Malakhov D.V., Skvortsova N.N.
    On the investigation of plasma turbulence by the analysis of the spectra
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 793-802

    The article describes the examples of the analysis of the experimental data spectra for identifying typical structures of processes forming plasma turbulence. The method is based on the original algorithm which is close to the one-sample bootstrap. The base model for description of the fine structure of stochastic processes is finite local-scale normal mixtures. For finding the statistical estimates (maximum likelihood estimates) well known EM algorithm is used. The efficiency of the proposed research technique is demonstrated for a number of spectra’s set obtained in different modes of low-frequency plasma turbulence.

    Просмотров за год: 2. Цитирований: 4 (РИНЦ).
  2. В работе развивается новый математический метод решения задачи совместного расчета параметров сигнала и шума в условиях распределения Райса, основанный на комбинировании метода максимума правдоподобия и метода моментов. При этом определение искомых параметров задачи осуществляется посредством обработки выборочных измерений амплитуды анализируемого райсовского сигнала. Получена система уравнений для искомых параметров сигнала и шума, а также представлены результаты численных расчетов, подтверждающие эффективность предлагаемого метода. Показано, что решение двухпараметрической задачи разработанным методом не приводит к увеличению объема требуемых вычислительных ресурсов по сравнению с решением однопараметрической задачи. В частном случае малой величины отношения сигнала к шуму получено аналитическое решение задачи. В работе проведено исследование зависимости погрешности и разброса расчетных данных для искомых параметров от количества измерений в экспериментальной выборке. Как показали численные эксперименты, величина разброса расчетных значений искомых параметров сигнала и шума, полученных предлагаемым методом, изменяется обратно пропорционально количеству измерений в выборке. Проведено сопоставление точности оценивания искомых райсовских параметров предлагаемым методом и ранее развитым вариантом метода моментов. Решаемая в работе задача является значимой для целей обработки райсовских данных, в частности, в системах магнитно-резонансной визуализации, в системах ультразвуковой визуализации, при анализе оптических сигналов в системах дальнометрии, в радиолокации, а также при решении многих других научных и прикладных задач, адекватно описываемых статистической моделью Райса.

    The paper develops a new mathematical method of the joint signal and noise calculation at the Rice statistical distribution based on combing the maximum likelihood method and the method of moments. The calculation of the sough-for values of signal and noise is implemented by processing the sampled measurements of the analyzed Rician signal’s amplitude. The explicit equations’ system has been obtained for required signal and noise parameters and the results of its numerical solution are provided confirming the efficiency of the proposed technique. It has been shown that solving the two-parameter task by means of the proposed technique does not lead to the increase of the volume of demanded calculative resources if compared with solving the task in one-parameter approximation. An analytical solution of the task has been obtained for the particular case of small value of the signal-to-noise ratio. The paper presents the investigation of the dependence of the sought for parameters estimation accuracy and dispersion on the quantity of measurements in experimental sample. According to the results of numerical experiments, the dispersion values of the estimated sought-for signal and noise parameters calculated by means of the proposed technique change in inverse proportion to the quantity of measurements in a sample. There has been implemented a comparison of the accuracy of the soughtfor Rician parameters’ estimation by means of the proposed technique and by earlier developed version of the method of moments. The problem having been considered in the paper is meaningful for the purposes of Rician data processing, in particular, at the systems of magnetic-resonance visualization, in devices of ultrasonic visualization, at optical signals’ analysis in range-measuring systems, at radar signals’ analysis, as well as at solving many other scientific and applied tasks that are adequately described by the Rice statistical model.

    Просмотров за год: 11.
  3. Уифтер Т.Т., Разумный Ю.Н., Орловский А.В., Лобанов В.К.
    Мониторинг распространения борщевика Сосновского с использованием алгоритма машинного обучения «случайный лес» в Google Earth Engine
    Компьютерные исследования и моделирование, 2022, т. 14, № 6, с. 1357-1370

    Изучение спектрального отклика растений на основе данных, собранных с помощью дистанционного зондирования, имеет большой потенциал для решения реальных проблем в различных областях исследований. В этом исследовании мы использовали спектральные свойства для идентификации инвазивного растения — борщевика Сосновского — по спутниковым снимкам. Борщевик Сосновского — инвазивное растение, которое наносит много вреда людям, животным и экосистеме в целом. Мы использовали выборочные данные о геолокации мест произрастания борщевика в Московской области, собранные с 2018 по 2020 год, и спутниковые снимки Sentinel-2 для спектрального анализа с целью его обнаружения на снимках. Мы развернули модель машинного обучения Random Forest (RF) на облачной платформе Google Earth Engine (GEE). Алгоритм обучается на наборе данных, состоящем из 12 каналов спутниковых снимков Sentinel-2, цифровой модели рельефа и некоторых спектральных индексов, которые используются в алгоритме в качестве параметров. Используемый подход заключается в выявлении биофизических параметров борщевика Сосновского по его коэффициентам отражения с уточнением радиочастотной модели непосредственно по набору данных. Наши результаты наглядно демонстрируют насколько сочетание методов дистанционного зондирования и машинного обучения может помочь в обнаружении борщевика и контроле его инвазивного распространения. Наш подход обеспечивает высокую точность обнаружения очагов произрастания борщевика Сосновского, составляющую 96,93 %.

    Yifter T.T., Razoumny Y.N., Orlovsky A.V., Lobanov V.K.
    Monitoring the spread of Sosnowskyi’s hogweed using a random forest machine learning algorithm in Google Earth Engine
    Computer Research and Modeling, 2022, v. 14, no. 6, pp. 1357-1370

    Examining the spectral response of plants from data collected using remote sensing has a lot of potential for solving real-world problems in different fields of research. In this study, we have used the spectral property to identify the invasive plant Heracleum sosnowskyi Manden from satellite imagery. H. sosnowskyi is an invasive plant that causes many harms to humans, animals and the ecosystem at large. We have used data collected from the years 2018 to 2020 containing sample geolocation data from the Moscow Region where this plant exists and we have used Sentinel-2 imagery for the spectral analysis towards the aim of detecting it from the satellite imagery. We deployed a Random Forest (RF) machine learning model within the framework of Google Earth Engine (GEE). The algorithm learns from the collected data, which is made up of 12 bands of Sentinel-2, and also includes the digital elevation together with some spectral indices, which are used as features in the algorithm. The approach used is to learn the biophysical parameters of H. sosnowskyi from its reflectances by fitting the RF model directly from the data. Our results demonstrate how the combination of remote sensing and machine learning can assist in locating H. sosnowskyi, which aids in controlling its invasive expansion. Our approach provides a high detection accuracy of the plant, which is 96.93%.

  4. Белов С.Д., Ден Ц., Ли В., Линь Т., Пелеванюк И.С., Трофимов В.В., Ужинский А.В., Янь Т., Янь С., Чжак Г., Чжао С., Чжан С., Жемчугов А.С.
    Распределенные вычисления для эксперимента BES-III
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 469-473

    В 2009 году в Пекине заработал детектор BES-III (Beijing Spectrometer) [1] ускорителя BEPC-II (Beijing Electron–Positron Collider). Запущенный еще в 1989 году BEPC за время своей работы предоставил данные для целого ряда открытий в области физики очарованных частиц. В свою очередь на BES-III удалось получить крупнейшие наборы данных для J/ ψ, ψ' и ψ частиц при энергии ускорителя 2.5– 4.6 ГэВ. Объемы данных с эксперимента (более 1 ПБ) достаточно велики, чтобы задуматься об их распределенной обработке. В данной статье представлена общая информация, результаты и планы развития проекта распределенной обработки данных эксперимента BES-III.

    Belov S.D., Deng Z., Li W., Lin T., Pelevanyuk I., Trofimov V.V., Uzhinskiy A.V., Yan T., Yan X., Zhang G., Zhao X., Zhang X., Zhemchugov A.S.
    BES-III distributed computing status
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 469-473

    The BES-III experiment at the IHEP CAS, Beijing, is running at the high-luminosity e+e- collider BEPC-II to study physics of charm quarks and tau leptons. The world largest samples of J/psi and psi' events are already collected, a number of unique data samples in the energy range 2.5–4.6 GeV have been taken. The data volume is expected to increase by an order of magnitude in the coming years. This requires to move from a centralized computing system to a distributed computing environment, thus allowing the use of computing resources from remote sites — members of the BES-III Collaboration. In this report the general information, latest results and development plans of the BES-III distributed computing system are presented.

    Просмотров за год: 3.
  5. Сабиров А.И., Катасёв А.С., Дагаева М.В.
    Нейросетевая модель распознавания знаков дорожного движения в интеллектуальных транспортных системах
    Компьютерные исследования и моделирование, 2021, т. 13, № 2, с. 429-435

    В данной статье проводится анализ проблемы распознавания знаков дорожного движения в интеллектуальных транспортных системах. Рассмотрены основные понятия компьютерного зрения и задачи распознавания образов. Самым эффективным и популярным подходом к решению задач анализа и распознавания изображений на данный момент является нейросетевой, а среди возможных нейронных сетей лучше всего показала себя искусственная нейронная сеть сверточной архитектуры. Для решения задачи классификации при распознавании дорожных знаков использованы такие функции активации, как Relu и SoftMax. В работе предложена технология распознавания дорожных знаков. Выбор подхода для решения поставленной задачи на основе сверточной нейронной сети обусловлен возможностью эффективно решать задачу выделения существенных признаков и классификации изображений. Проведена подготовка исходных данных для нейросетевой модели, сформирована обучающая выборка. В качестве платформы для разработки интеллектуальной нейросетевой модели распознавания использован облачный сервис Google Colaboratory с подключенными библиотеками для глубокого обучения TensorFlow и Keras. Разработана и протестирована интеллектуальная модель распознавания знаков дорожного движения. Использованная сверточная нейронная сеть включала четыре каскада свертки и подвыборки. После сверточной части идет полносвязная часть сети, которая отвечает за классификацию. Для этого используются два полносвязных слоя. Первый слой включает 512 нейронов с функцией активации Relu. Затем идет слой Dropout, который используется для уменьшения эффекта переобучения сети. Выходной полносвязный слой включает четыре нейрона, что соответствует решаемой задаче распознавания четырех видов знаков дорожного движения. Оценка эффективности нейросетевой модели распознавания дорожных знаков методом трехблочной кроссалидации показала, что ее ошибка минимальна, следовательно, в большинстве случаев новые образы будут распознаваться корректно. Кроме того, у модели отсутствуют ошибки первого рода, а ошибка второго рода имеет низкое значение и лишь при сильно зашумленном изображении на входе.

    Sabirov A.I., Katasev A.S., Dagaeva M.V.
    A neural network model for traffic signs recognition in intelligent transport systems
    Computer Research and Modeling, 2021, v. 13, no. 2, pp. 429-435

    This work analyzes the problem of traffic signs recognition in intelligent transport systems. The basic concepts of computer vision and image recognition tasks are considered. The most effective approach for solving the problem of analyzing and recognizing images now is the neural network method. Among all kinds of neural networks, the convolutional neural network has proven itself best. Activation functions such as Relu and SoftMax are used to solve the classification problem when recognizing traffic signs. This article proposes a technology for recognizing traffic signs. The choice of an approach for solving the problem based on a convolutional neural network due to the ability to effectively solve the problem of identifying essential features and classification. The initial data for the neural network model were prepared and a training sample was formed. The Google Colaboratory cloud service with the external libraries for deep learning TensorFlow and Keras was used as a platform for the intelligent system development. The convolutional part of the network is designed to highlight characteristic features in the image. The first layer includes 512 neurons with the Relu activation function. Then there is the Dropout layer, which is used to reduce the effect of overfitting the network. The output fully connected layer includes four neurons, which corresponds to the problem of recognizing four types of traffic signs. An intelligent traffic sign recognition system has been developed and tested. The used convolutional neural network included four stages of convolution and subsampling. Evaluation of the efficiency of the traffic sign recognition system using the three-block cross-validation method showed that the error of the neural network model is minimal, therefore, in most cases, new images will be recognized correctly. In addition, the model has no errors of the first kind, and the error of the second kind has a low value and only when the input image is very noisy.

  6. Создание компьютерного лабораторного стенда, позволяющего получать достоверные характеристики, которые могут быть приняты за действительные, с учетом погрешностей и шумов (в чем заключается главная отличительная черта вычислительного эксперимента от модельных исследований), является одной из основных проблем настоящей работы. В ней рассматривается следующая задача: имеется прямоугольный волновод в одномодовом режиме, на широкой стенке которого прорезано сквозное технологическое отверстие, через которое в полость линии передачи помещается образец для исследования. Алгоритм восстановления следующий: в лаборатории производится измерение параметров цепи (S11 и/или S21) в линии передачи с образцом. В компьютерной модели лабораторного стенда воссоздается геометрия образца и запускается итерационный процесс оптимизации (или свипирования) электрофи- зических параметров образца, маской которого являются экспериментальные данные, а критерием остановки — интерпретационная оценка близости к ним. Важно отметить, что разрабатываемая компьютерная модель, одновременно с кажущейся простотой, изначально является плохо обусловленной. Для постановки вычислительного эксперимента используется среда моделирования Comsol. Результаты проведенного вычислительного эксперимента с хорошей степенью точности совпали с результатами лабораторных исследований. Таким образом, экспериментальная верификация проведена для целого ряда значимых компонент, как компьютерной модели в частности, так и алгоритма восстановления параметров объекта в общем. Важно отметить, что разработанная и описанная в настоящей работе компьютерная модель может быть эффективно использована для вычислительного эксперимента по восстановлению полных диэлектрических параметров образца сложной геометрии. Обнаруженными могут также являться эффекты слабой бианизотропии, включая киральность, гиротропность и невзаимность материала. Полученная модель по определению является неполной, однако ее полнота является наивысшей из рассматриваемых вариантов, одновременно с этим результирующая модель оказывается хорошо обусловлена. Особое внимание в данной работе уделено моделированию коаксиально-волноводного перехода, показано, что применение дискретно-элементного подхода предпочтительнее, чем непосредственное моделирование геометрии СВЧ-узла.

    The creation of a virtual laboratory stand that allows one to obtain reliable characteristics that can be proven as actual, taking into account errors and noises (which is the main distinguishing feature of a computational experiment from model studies) is one of the main problems of this work. It considers the following task: there is a rectangular waveguide in the single operating mode, on the wide wall of which a technological hole is cut, through which a sample for research is placed into the cavity of the transmission line. The recovery algorithm is as follows: the laboratory measures the network parameters (S11 and/or S21) in the transmission line with the sample. In the computer model of the laboratory stand, the sample geometry is reconstructed and an iterative process of optimization (or sweeping) of the electrophysical parameters is started, the mask of this process is the experimental data, and the stop criterion is the interpretive estimate of proximity (or residual). It is important to note that the developed computer model, along with its apparent simplicity, is initially ill-conditioned. To set up a computational experiment, the Comsol modeling environment is used. The results of the computational experiment with a good degree of accuracy coincided with the results of laboratory studies. Thus, experimental verification was carried out for several significant components, both the computer model in particular and the algorithm for restoring the target parameters in general. It is important to note that the computer model developed and described in this work may be effectively used for a computational experiment to restore the full dielectric parameters of a complex geometry target. Weak bianisotropy effects can also be detected, including chirality, gyrotropy, and material nonreciprocity. The resulting model is, by definition, incomplete, but its completeness is the highest of the considered options, while at the same time, the resulting model is well conditioned. Particular attention in this work is paid to the modeling of a coaxial-waveguide transition, it is shown that the use of a discrete-element approach is preferable to the direct modeling of the geometry of a microwave device.

  7. Четырбоцкий В.А., Четырбоцкий А.Н.
    Задачи численного моделирования динамики системы «почва–растение»
    Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 445-465

    Рассмотрены современные математические модели динамики системы «почва–растение», составляющими которых выступают: растение сельскохозяйственного назначения, микроорганизмы ризосферы (прикорневой зоны растений), элементы минерального питания растений их подвижной и неподвижной форм. На основании анализа принятых положений разработана модель, в которой учитываются взаимосвязи и определенный согласованный характер совместных изменений ее составляющих. В частности, динамика содержащихся в растениях элементов их минерального питания и динамика биомассы растений определяются текущим содержанием в ризосфере внесенных сюда удобрений и отмершими продуктами жизнедеятельности ризосферных элементов (отмершие корни растений, опавшие листья (опад) и т. д.). Полагаются пространственная неподвижность растений и пространственная подвижность микро- организмов, механизм которой определяется здесь диффузией. Предлагаются формальные соотношения влияния суммарного воздействия на динамику растений сорняков (они характеризуют отдельный вид растений) и вредителей (они характеризуют отдельный вид микроорганизмов), где учитываются взаимные переходы элементов минерального питания из подвижной их формы в неподвижную. Для системы, где каждая из составляющих представлена только одним видом (удобрение, ассоциация микроорганизмов и растения представлены только одним видом), выполнено аналитическое исследование. Для однолетних культур сельскохозяйственного назначения разработана адаптация модели распространения волны в системе «ресурс–потребитель» (волны Колмогорова–Петровского–Пискунова). Реализация модели выполнена на примере динамики роста яровой пшеницы Красноуфимская-100 на торфяной низинной почве, куда предварительно были внесены фосфорные и калийные удобрения. Цифровой материал представлен массивом экспериментальных распределений биомассы растений и элементов минерального питания. Специфика экспериментального материала обусловила переход к модели, которая является редукцией сформулированной общей модели. Ее составляющими выступают распределение биомассы растений и содержание в них элементов минерального питания. Оценка адекватности модельных и экспериментальных распределений показала хорошую степень их соответствия.

    Chetyrbotskii V.A., Chetyrbotsky A.N.
    Problems of numerical simulation in the dynamics system “soil–plant”
    Computer Research and Modeling, 2020, v. 12, no. 2, pp. 445-465

    Modern mathematical models in the dynamics system “soil–plant” are considered. The components of this system are: agricultural plant, microorganisms of the rhizosphere (root zone of plants), the mineral nutrition elements of plants in their mobile and immobile forms. The model of submitted system based on the analysis of the adopted provisions was developed. The construction of system elements allows to display the coordinated dynamics of these elements among themselves. In particular, the dynamics of mineral nutrition elements in plants and the dynamics of their biomass are determined by the current contents in the rhizosphere of mineral fertilizers and organic origin substances (plant roots, leaves, etc.). The immobility of plants spatial distribution and the mobile spatial nature of microorganisms are assumed. This mechanism is determined by diffusion. Mutual relationships between weeds and pests are suggested. The dynamics of the mineral nutrition elements is determined by the peculiarity of sorption in the soil solution, environmental conditions, organic decomposition and fertilizer application. An analytical study for a system where each of the components is represented by only one species (fertilizer, the association of microorganisms and plants) was performed. An adaptation of the wave propagation model in the “resource–consumer” system (Kolmogorov–Petrovsky–Piskunov waves) has been developed for annual agricultural crops. The developed model has been adapted for the growth of Krasnoufimskaya-100 spring wheat in a vessel on peat lowland soil, where nitrogen, phosphorus, and potassium fertilizers were added variably. Sample distributions are plants biomass and the content of mineral nutrition elements in them. The parametric identification of the model and its adequacy was performed. An assessment of the model adequacy showed a good agreement between the model and experimental data.

  8. Шмидт Ю.Д., Ивашина Н.В., Озерова Г.П.
    Моделирование межрегиональных миграционных потоков клеточными автоматами
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1467-1483

    В статье исследуется проблема разработки и обоснования наиболее адекватного инструментария для прогнозирования величины и структуры межрегиональных миграционных потоков. Миграционные процессы оказывают значительное влияние на численность и демографическую структуру населения территорий, состояние и сбалансированность региональных и локальных рынков труда. Для анализа миграционных процессов и оценки их последствий необходим экономикоатематический инструментарий, позволяющий с необходимой точностью моделировать миграционные процессы и потоки для различных территорий. Рассмотрены существующие подходы и методы моделирования миграционных процессов с анализом их преимуществ и недостатков. Отмечается, что для реализации многих из этих методов необходим большой массив агрегированных статистических данных, который не всегда имеется в наличии и не характеризует поведение мигрантов на локальном уровне, на котором принимается решение о переезде на новое место жительства. Это существенно влияет на возможность применения соответствующих методов моделирования миграционных процессов и точность прогнозов величины и структуры миграционных потоков.

    В работе разработана и апробирована на данных Приморского края модель клеточного автомата для моделирования межрегиональных миграционных потоков, реализующая интеграцию модели миграционного поведения домашних хозяйств в условиях ограниченной рациональности в общую модель миграционного потока территории. Для реализации модели миграционного поведения домашних хозяйств в условиях ограниченной рациональности предложен интегральный индекс привлекательности регионов с экономической, социальной и экологической составляющими. Для оценки прогностической способности разработанной модели проведено ее сравнение с существующими моделями клеточных автоматов, используемыми для прогнозирования межрегиональных миграционных потоков. Для этих целей был использован метод вневыборочного прогнозирования, который показал статистически значимое превосходство предложенной модели, которая позволяет получать прогнозы и количественные характеристики миграционных потоков территорий на основе реального миграционного поведения домашних хозяйств на локальном уровне с учетом условий их проживания и поведенческих мотивов.

    Shmidt Y.D., Ivashina N.V., Ozerova G.P.
    Modelling interregional migration flows by the cellular automata
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1467-1483

    The article dwells upon investigating the issue of the most adequate tools developing and justifying to forecast the interregional migration flows value and structure. Migration processes have a significant impact on the size and demographic structure of the population of territories, the state and balance of regional and local labor markets.

    To analyze the migration processes and to assess their impact an economic-mathematical tool is required which would be instrumental in modelling the migration processes and flows for different areas with the desired precision. The current methods and approaches to the migration processes modelling, including the analysis of their advantages and disadvantages, were considered. It is noted that to implement many of these methods mass aggregated statistical data is required which is not always available and doesn’t characterize the migrants behavior at the local level where the decision to move to a new dwelling place is made. This has a significant impact on the ability to apply appropriate migration processes modelling techniques and on the projection accuracy of the migration flows magnitude and structure.

    The cellular automata model for interregional migration flows modelling, implementing the integration of the households migration behavior model under the conditions of the Bounded Rationality into the general model of the area migration flow was developed and tested based on the Primorye Territory data. To implement the households migration behavior model under the conditions of the Bounded Rationality the integral attractiveness index of the regions with economic, social and ecological components was proposed in the work.

    To evaluate the prognostic capacity of the developed model, it was compared with the available cellular automata models used to predict interregional migration flows. The out of sample prediction method which showed statistically significant superiority of the proposed model was applied for this purpose. The model allows obtaining the forecasts and quantitative characteristics of the areas migration flows based on the households real migration behaviour at the local level taking into consideration their living conditions and behavioural motives.

  9. Краснов Ф.В., Смазневич И.С., Баскакова Е.Н.
    Метод контрастного семплирования для предсказания библиографических ссылок
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1317-1336

    В работе рассматривается задача поиска в научной статье фрагментов с недостающими библиографическими ссылками с помощью автоматической бинарной классификации. Для обучения модели предложен метод контрастного семплирования, новшеством которого является рассмотрение контекста ссылки с учетом границ фрагмента, максимально влияющего на вероятность нахождения в нем библиографической ссылки. Обучающая выборка формировалась из автоматически размеченных семплов — фрагментов из трех предложений с метками классов «без ссылки» и «со ссылкой», удовлетворяющих требованию контрастности: семплы разных классов дистанцируются в исходном тексте. Пространство признаков строилось автоматически по статистике встречаемости термов и расширялось за счет конструирования дополнительных признаков — выделенных в тексте сущностей ФИО, чисел, цитат и аббревиатур.

    Проведена серия экспериментов на архивах научных журналов «Правоприменение» (273 статьи) и «Журнал инфектологии» (684 статьи). Классификация осуществлялась моделями Nearest Neighbours, RBF SVM, Random Forest, Multilayer Perceptron, с подбором оптимальных гиперпараметров для каждого классификатора.

    Эксперименты подтвердили выдвинутую гипотезу. Наиболее высокую точность показал нейросетевой классификатор (95%), уступающий по скорости линейному, точность которого при контрастном семплировании также оказалась высока (91–94 %). Полученные значения превосходят результаты, опубликованные для задач NER и анализа тональности на данных со сравнимыми характеристиками. Высокая вычислительная эффективность предложенного метода позволяет встраивать его в прикладные системы и обрабатывать документы в онлайн-режиме.

    Krasnov F.V., Smaznevich I.S., Baskakova E.N.
    Bibliographic link prediction using contrast resampling technique
    Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1317-1336

    The paper studies the problem of searching for fragments with missing bibliographic links in a scientific article using automatic binary classification. To train the model, we propose a new contrast resampling technique, the innovation of which is the consideration of the context of the link, taking into account the boundaries of the fragment, which mostly affects the probability of presence of a bibliographic links in it. The training set was formed of automatically labeled samples that are fragments of three sentences with class labels «without link» and «with link» that satisfy the requirement of contrast: samples of different classes are distanced in the source text. The feature space was built automatically based on the term occurrence statistics and was expanded by constructing additional features — entities (names, numbers, quotes and abbreviations) recognized in the text.

    A series of experiments was carried out on the archives of the scientific journals «Law enforcement review» (273 articles) and «Journal Infectology» (684 articles). The classification was carried out by the models Nearest Neighbors, RBF SVM, Random Forest, Multilayer Perceptron, with the selection of optimal hyperparameters for each classifier.

    Experiments have confirmed the hypothesis put forward. The highest accuracy was reached by the neural network classifier (95%), which is however not as fast as the linear one that showed also high accuracy with contrast resampling (91–94%). These values are superior to those reported for NER and Sentiment Analysis on comparable data. The high computational efficiency of the proposed method makes it possible to integrate it into applied systems and to process documents online.

  10. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195

    Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.

Страницы: « первая предыдущая следующая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.