Текущий выпуск Номер 2, 2024 Том 16

Все выпуски

Результаты поиска по 'метрика':
Найдено статей: 28
  1. Чувилин К.В.
    Эффективный алгоритм сравнения документов в формате ${\mathrm{\LaTeX}}$
    Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 329-345

    Рассматривается задача построения различий, возникающих при редактировании документов в формате ${\mathrm{\LaTeX}}$. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang–Shasha.

    Просмотров за год: 2. Цитирований: 2 (РИНЦ).
  2. Коваленко И.Б., Древаль В.Д., Федоров В.А., Холина Е.Г., Гудимчук Н.Б.
    Описание изгибов протофиламентов микротрубочек
    Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 435-443

    Работа посвящена анализу конформационных изменений в димерах и тетрамерах тубулина, в частности оценке изгиба составленных из них протофиламентов. В работе рассмотрено три недавно использованных подхода для оценки изгиба тубулиновых протофиламентов: (1) измерение угла между вектором, проходящим через H7 спирали в $\alpha$- и $\beta$-мономерах тубулина в прямой структуре, и таким же вектором в изогнутой структуре тубулина; (2) измерение угла между вектором, соединяющим центры масс субъединицы и связанного с ней ГТФ- нуклеотида, и вектором, связывающим центры масс того же нуклеотида и соседней субъединицы тубулина; (3) измерение трех углов вращения субъединицы тубулина в изогнутой структуре димера тубулина относительно аналогичной субъединицы в прямой структуре димера тубулина. Приведены рассчитанные в соответствии с описанными тремя метриками количественные оценки углов на внутри- и междимерных интерфейсах тубулина в опубликованных кристаллических структурах. Внутридимерные углы тубулина в одной структуре, измеренные по методу (3), как и измерения этим методом внутридимерных углов в разных структурах, были более схожи, чем при использовании других методов, что говорит о меньшей чувствительности метода к локальным изменениям конформации тубулина, и характеризует метод в целом как более устойчивый. Измерения кривизны тубулина по углу между H7-спиралями дают несколько заниженную оценку удельной кривизны тубулина на димер, а метод (2), хотя на первый взгляд и дает цифры, также довольно хорошо совпадающие с оценками криоэлектронной микроскопии, существенно завышает углы даже на прямых структурах. Для структур тетрамеров тубулина в комплексе с белком статмином углы изгиба, рассчитанные по всем трем метрикам, различались для первого и второго димеров довольно существенно (до 20 % и больше), что говорит о чувствительности всех метрик к незначительным вариациям в конформации димеров тубулина внутри этих комплексов. Подробное описание процедур измерения изгибов тубулиновых протофиламентов, а также выявление преимуществ и недостатков различных метрик позволит увеличить воспроизводимость и четкость анализа структур тубулина в будущем, а также позволит облегчить сопоставление результатов, полученных различными научными группами.

  3. Алпатов А.В., Петерс Е.А., Пасечнюк Д.А., Райгородский А.М.
    Стохастическая оптимизация в задаче цифрового предыскажения сигнала
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 399-416

    В данной статье осуществляется сравнение эффективности некоторых современных методов и практик стохастической оптимизации применительно к задаче цифрового предыскажения сигнала (DPD), которое является важной составляющей процесса обработки сигнала на базовых станциях, обеспечивающих беспроводную связь. В частности, рассматривается два круга вопросов о возможностях применения стохастических методов для обучения моделей класса Винера – Гаммерштейна в рамках подхода минимизации эмпирического риска: касательно улучшения глубины и скорости сходимости данного метода оптимизации и относительно близости самой постановки задачи (выбранной модели симуляции) к наблюдаемому в действительности поведению устройства. Так, в первой части этого исследования внимание будет сосредоточено на вопросе о нахождении наиболее эффективного метода оптимизации и дополнительных к нему модификаций. Во второй части предлагается новая квази-онлайн-постановка задачи и, соответственно, среда для тестирования эффективности методов, благодаря которым результаты численного моделирования удается привести в соответствие с поведением реального прототипа устройства DPD. В рамках этой новой постановки далее осуществляется повторное тестирование некоторых избранных практик, более подробно рассмотренных в первой части исследования, и также обнаруживаются и подчеркиваются преимущества нового лидирующего метода оптимизации, оказывающегося теперь также наиболее эффективным и в практических тестах. Для конкретной рассмотренной модели максимально достигнутое улучшение глубины сходимости составило 7% в стандартном режиме и 5% в онлайн-постановке (при том что метрика сама по себе имеет логарифмическую шкалу). Также благодаря дополнительным техникам оказывается возможным сократить время обучения модели DPD вдвое, сохранив улучшение глубины сходимости на 3% и 6% для стандартного и онлайн-режимов соответственно. Все сравнения производятся с методом оптимизации Adam, который был отмечен как лучший стохастический метод для задачи DPD из рассматриваемых в предшествующей работе [Pasechnyuk et al., 2021], и с методом оптимизации Adamax, который оказывается наиболее эффективным в предлагаемом онлайн-режиме.

  4. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

  5. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

  6. В работе решается задача установления зависимости потенциала пространственной селекции полезных и мешающих сигналов по критерию отношения «сигнал/помеха» от погрешности позиционирования устройств при диаграммообразовании по местоположению на базовой станции, оборудованной антенной решеткой. Конфигурируемые параметры моделирования включают планарную антенную решетку с различным числом антенных элементов, траекторию движения, а также точность определения местоположения по метрике среднеквадратического отклонения оценки координат устройств. В модели реализованы три алгоритма управления формой диаграммы направленности: 1) управление положением одного максимума и одного нуля; 2) управление формой и шириной главного лепестка; 3) адаптивная схема. Результаты моделирования показали, что первый алгоритм наиболее эффективен при числе элементов антенной решетки не более 5 и погрешности позиционирования не более 7 м, а второй алгоритм целесообразно использовать при числе элементов антенной решетки более 15 и погрешности позиционирования более 5 м. Адаптивное диаграммообразование реализуется по обучающему сигналу и обеспечивает оптимальную пространственную селекцию полезных и мешающих сигналов без использования данных о местоположении, однако отличается высокой сложностью аппаратной реализации. Скрипты разработанных моделей доступны для верификации. Полученные результаты могут использоваться при разработке научно обоснованных рекомендаций по управлению лучом в сверхплотных сетях радиодоступа миллиметрового диапазона пятого и последующих поколений.

  7. Предложен метод отображения промежуточных представлений C-, C++-программ в пространство векторов (эмбеддингов) для оценки производительности программ на этапе компиляции, без необходимости исполнения. Использование эмбеддингов для данной цели позволяет не проводить сравнение графов исследуемых программ непосредственно, что вычислительно упрощает задачу сравнения программ. Метод основан на серии трансформаций исходного промежуточного представления (IR), таких как: инструментирование — добавление фиктивных инструкций в оптимизационном проходе компилятора в зависимости от разности смещений в текущей инструкции обращения к памяти относительно предыдущей, преобразование IR в многомерный вектор с помощью технологии IR2Vec с понижением размерности по алгоритму t-SNE (стохастическое вложение соседей с t-распределением). В качестве метрики производительности предлагается доля кэш-промахов 1-го уровня (D1 cache misses). Приводится эвристический критерий отличия программ с большей долей кэш-промахов от программ с меньшей долей по их образам. Также описан разработанный в ходе работы проход компилятора, генерирующий и добавляющий фиктивные инструкции IR согласно используемой модели памяти. Приведено описание разработанного программного комплекса, реализующего предложенный способ оценивания на базе компиляторной инфраструктуры LLVM. Проведен ряд вычислительных экспериментов на синтетических тестах из наборов программ с идентичными потоками управления, но различным порядком обращений к одномерному массиву, показано, что коэффициент корреляции между метрикой производительности и расстоянием до эмбеддинга худшей программы в наборе отрицателен вне зависимости от инициализации t-SNE, что позволяет сделать заключение о достоверности эвристического критерия. Также в статье рассмотрен способ генерации тестов. По результатам экспериментов, вариативность значений метрики производительности на исследуемых множествах предложена как метрика для улучшения генератора тестов.

  8. Чувилин К.В.
    Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883

    Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.

    Цитирований: 5 (РИНЦ).
Страницы: « первая предыдущая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.