Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
-
Численное исследование модели Холстейна в разных термостатах
Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 489-502На основе гамильтониана Холстейна промоделирована динамика заряда, привнесенного в молекулярную цепочку сайтов, при разной температуре. При расчете температура цепочки задается начальными данными — случайными гауссовыми распределениями скоростей и смещений сайтов. Рассмотрены разные варианты начального распределенияз арядовой плотности. Расчеты показывают, что система на больших расчетных временах переходит к колебаниям около нового равновесного состояния. Для одинаковых начальных скоростей и смещений средняя кинетическая энергия (и, соответственно, температура $T$) цепочки меняется в зависимости от начального распределения зарядовой плотности: убывает при внесении в цепочку полярона или увеличивается, если в начальный момент электронная часть энергии максимальна.
Проведено сравнение с результатами, полученными ранее в модели с термостатом Ланжевена. В обоих случаях существование полярона определяется тепловой энергией всей цепочки. По результатам моделирования, переход от режима полярона к делокализованному состоянию происходит в одинаковой области значений тепловой энергии цепочки $N$ сайтов ~ $NT$ для обоих вариантов термостата, с дополнительной корректировкой: для гамильтоновой системы температура не соответствует начально заданной, а определяется на больших расчетных временах из средней кинетической энергии цепочки.
В поляронной области применение разных способов имитации температуры приводит к ряду существенных различий в динамике системы. В области делокализованного состояния заряда, для больших температур, результаты, усредненные по набору траекторий в системе со случайной силой, и результаты, усредненные по времени для гамильтоновой системы, близки, что не противоречит гипотезе эргодичности. С практической точки зрения для больших температур T ≈ 300 K при моделировании переноса заряда в однородных цепочках можно использовать любой вариант задания термостата.
-
Кластеризация по времени крупных падений фондовых индексов
Компьютерные исследования и моделирование, 2012, т. 4, № 3, с. 631-638В статье оценивается повторяемость падений фондовых индексов S&P100, CAC40, DAX, FTSE, AMEX, ATX, NASDAQ, BEL20. Введена количественная мера повторяемости, основанная на ошибках первого и второго рода. Установлено, что за первую четверть времени между падениями происходит в среднем более трех четвертей всех падений. Этот результат распространяется с достаточно крупных падений, которые фиксируются в среднем два раза в год, на меньшие падения, наблюдаемые в среднем один раз в 1.5–2 месяца.
Ключевые слова: распределение времени между событиями, ошибки первого и второго рода.Просмотров за год: 2. -
Статистически справедливая цена на европейские опционы колл согласно дискретной модели «среднее–дисперсия»
Компьютерные исследования и моделирование, 2014, т. 6, № 5, с. 861-874Просмотров за год: 1.Мы рассматриваем портфель с опционом колл и соответствующим базовым активом при стандартном предположении, что рыночная цена является случайной величиной с логнормальным распределением. Минимизируя дисперсию (риск хеджирования) портфеля на дату погашения опциона, мы находим оптимальное соотношение опциона и актива в портфеле. Как прямое следствие мы получим статистически справедливую цену опциона колл в явной форме (случай опциона пут может быть рассмотрен аналогичным образом). В отличие от известной теории Блэка–Шоулза, любой портфель не может рассматриваться свободным от риска, потому что никаких дополнительных сделок в течение контракта не предполагается, но среднестатистический риск, относящийся к достаточно большому количеству независимых портфелей, стремится к нулю асимптотически. Это свойство иллюстрируется в экспериментальном разделе на основе ежедневных цен акций 37-ми лидирующих американских компаний за период времени, начиная с апреля 2006 года по январь 2013 года.
-
Отклонения от закона Бенфорда и распознавание авторских особенностей в текстах
Компьютерные исследования и моделирование, 2015, т. 7, № 1, с. 197-201Просмотров за год: 4. Цитирований: 6 (РИНЦ).Исследовано распределение первой значащей цифры в числительных связных текстов. Обнаружено, что закон Бенфорда приближенно выполняется для них. Отклонения от закона Бенфорда являются статистически устойчивыми авторскими особенностями, позволяющими при некоторых условиях различить части текста с разным авторством.
-
Применение методики корреляционной адаптометрии в спортивных и медико-биологических исследованиях
Компьютерные исследования и моделирование, 2017, т. 9, № 2, с. 345-354Просмотров за год: 10.В работе излагаются подходы к математическому моделированию механизмов, лежащих в основе широко используемых в биологии и медицине методов корреляционной адаптометрии. Построение базируется на конструкциях, лежащих в основе описания структурированных биологических систем. Предполагается, что плотность распределения численности биологической популяции удовлетворяет уравнению Колмогорова–Фоккера–Планка. С использованием данной методики оценивается эффективность лечения больных с ожирением. Все пациенты, в зависимости от степени ожирения и характера сопутствующей патологии, были разделены на три группы. Показано уменьшение веса корреляционного графа, вычисленного на измеренных у пациентов показателях для трех групп пациентов, что характеризует эффективность проведенного лечения для всех исследуемых групп. Данная методика также была использована для оценки напряженности тренировочных нагрузок у гребцов академической гребли трех возрастных групп. Было показано, что с наибольшим напряжением работали спортсмены молодежной группы. Также с использованием методики корреляционной адаптометрии оценивается эффективность лечения заместительной гормональной терапии (ЗГТ) у женщин. Все пациентки, в зависимости от назначенного препарата, были разделены на четыре группы. При стандартном анализе динамики средних величин показателей было показано, что в ходе всего лечения наблюдалась нормализация средних показателей для всех групп пациенток. Однако с использованием методики корреляционной адаптометрии было получено, что в течение первых шести месяцев вес корреляционного графа снижался, а в течение вторых шести месяцев этот вес повышался для всех исследуемых групп. Это свидетельствует о чрезмерной продолжительности годового курса ЗГТ и целесообразности перехода к полугодовому курсу.
-
Статистический анализ биграмм специализированных текстов
Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 243-254Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2 % представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.
Ключевые слова: стохастическая матрица, спектральный портрет, статистический индикатор, научный текст. -
Использование разностных схем для уравнения переноса со стоком при моделировании энергосетей
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1149-1164Современные системы транспортировки электроэнергии представляют собой сложные инженерные системы. В состав таких систем входят как точечные объекты (производители электроэнергии, потребители, трансформаторные подстанции), так и распределенные (линии электропередач). При создании математических моделей такие сооружения представляются в виде графов с различными типами узлов. Для исследования динамических эффектов в таких системах приходится решать численно систему дифференциальных уравнений в частных производных гиперболического типа.
В работе использован подход, аналогичный уже примененным ранее при моделировании подобных задач. Использован вариант метода расщепления. Авторами предложен свой способ расщепления. В отличие от большинства известных работ расщепление проводится не по физическим процессам (перенос без диссипации, отдельно диссипативные процессы), а на перенос со стоковыми членами и «обменную» часть. Такое расщепление делает возможным построение гибридных схем для инвариантов Римана, обладающих высоким порядком аппроксимации и минимальной диссипативной погрешностью. Для однофазной ЛЭП приведен пример построения такой гибридной разностной схемы. Предложенная разностная схема строится на основе анализа свойств схем в пространстве неопределенных коэффициентов.
Приведены примеры расчетов модельной задачи с использованием предложенного расщепления и построенной разностной схемы. На примере численных расчетов показано, что разностная схема позволяет численно воспроизводить возникающие области больших градиентов. Показано, что разностная схема позволяет обнаружить резонансы в подобных системах.
-
Определение автора текста методом сегментации
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1199-1210В работе описывается метод распознавания авторов литературных текстов по близости фрагментов, на которые разделен отдельный текст, к эталону автора. Эталоном является эмпирическое распределение частот буквосочетаний, построенное по обучающей выборке, куда вошли экспертно отобранные достоверно известные произведения данного автора. Совокупность эталонов разных авторов образует библиотеку, внутри которой и решается задача об идентификации автора неизвестного текста. Близость между текстами понимается в смысле нормы в L1 для вектора частот буквосочетаний, который строится для каждого фрагмента и для текста в целом. Автором неизвестного текста назначается тот, эталон которого чаще всего выбирается в качестве ближайшего для набора фрагментов, на которые разделен текст. Длина фрагмента оптимизируется исходя из принципа максимального различия расстояний от фрагментов до эталонов в задаче распознавания «свой–чужой». Тестирование метода проведено на корпусе отечественных и зарубежных (в переводе) авторов. Были собраны 1783 текста 100 авторов суммарным объемом примерно 700 млн знаков. Чтобы исключить тенденциозность отбора авторов, рассматривались авторы, фамилии которых начинались на одну и ту же букву (в данном случае Л). Ошибка идентификации по биграммам составила 12%. Наряду с достаточно высокой точностью данный метод обладает еще одним важным свойством: он позволяет оценить вероятность того, что эталон автора рассматриваемого текста в библиотеке отсутствует. Эта вероятность может быть оценена по результатам статистики ближайших эталонов для малых фрагментов текста. В работе исследуются также статистические цифровые портреты писателей: это совместные эмпирические распределения вероятности того, что некоторая доля текста идентифицируется на заданном уровне доверия. Практическая важность этих статистик в том, что носители соответствующих распределений практически не пересекаются для своих и чужих эталонов, что позволяет распознать эталонное распределение буквосочетаний на высоком уровне доверия.
Ключевые слова: эмпирическое распределение частот, биграммы, идентификация автора, литературный текст, ближайший эталон. -
Решение негладких распределенных минимаксных задач с применением техники сглаживания
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 469-480Распределенные седловые задачи имеют множество различных приложений в оптимизации, теории игр и машинном обучении. Например, обучение генеративных состязательных сетей может быть представлено как минимаксная задача, а также задача обучения линейных моделей с регуляризатором может быть переписана как задача поиска седловой точки. В данной статье исследуются распределенные негладкие седловые задачи с липшицевыми целевыми функциями (возможно, недифференцируемыми). Целевая функция представляется в виде суммы нескольких слагаемых, распределенных между группой вычислительных узлов. Каждый узел имеет доступ к локально хранимой функции. Узлы, или агенты, обмениваются информацией через некоторую коммуникационную сеть, которая может быть централизованной или децентрализованной. В централизованной сети есть универсальный агрегатор информации (сервер или центральный узел), который напрямую взаимодействует с каждым из агентов и, следовательно, может координировать процесс оптимизации. В децентрализованной сети все узлы равноправны, серверный узел отсутствует, и каждый агент может общаться только со своими непосредственными соседями.
Мы предполагаем, что каждый из узлов локально хранит свою целевую функцию и может вычислить ее значение в заданных точках, т. е. имеет доступ к оракулу нулевого порядка. Информация нулевого порядка используется, когда градиент функции является трудно вычислимым, а также когда его невозможно вычислить или когда функция не дифференцируема. Например, в задачах обучения с подкреплением необходимо сгенерировать траекторию для оценки текущей стратегии. Этот процесс генерирования траектории и оценки политики можно интерпретировать как вычисление значения функции. Мы предлагаем подход, использующий технику сглаживания, т. е. применяющий метод первого порядка к сглаженной версии исходной функции. Можно показать, что стохастический градиент сглаженной функции можно рассматривать как случайную двухточечную аппроксимацию градиента исходной функции. Подходы, основанные на сглаживании, были изучены для распределенной минимизации нулевого порядка, и наша статья обобщает метод сглаживания целевой функции на седловые задачи.
Ключевые слова: выпуклая оптимизация, распределенная оптимизация.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"





