Текущий выпуск Номер 1, 2024 Том 16

Все выпуски

Результаты поиска по 'машинное обучение':
Найдено статей: 46
  1. Алкуса М.С., Гасников А.В., Двуреченский П.Е., Садиев А.А., Разук Л.Я.
    Подход к решению невыпуклой равномерно вогнутой седловой задачи со структурой
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 225-237

    В последнее время седловым задачам уделяется большое внимание благодаря их мощным возможностям моделирования для множества задач из различных областей. Приложения этих задач встречаются в многочисленных современных прикладных областях, таких как робастная оптимизация, распределенная оптимизация, теория игр и~приложения машинного обучения, такие как, например, минимизация эмпирического риска или обучение генеративно-состязательных сетей. Поэтому многие исследователи активно работают над разработкой численных методов для решения седловых задач в самых разных предположениях. Данная статья посвящена разработке численного метода решения седловых задач в невыпуклой равномерно вогнутой постановке. В этой постановке считается, что по группе прямых переменных целевая функция может быть невыпуклой, а по группе двойственных переменных задача является равномерно вогнутой (это понятие обобщает понятие сильной вогнутости). Был изучен более общий класс седловых задач со сложной композитной структурой и гёльдерово непрерывными производными высшего порядка. Для решения рассматриваемой задачи был предложен подход, при котором мы сводим задачу к комбинации двух вспомогательных оптимизационных задач отдельно для каждой группы переменных: внешней задачи минимизации и~внутренней задачи максимизации. Для решения внешней задачи минимизации мы используем адаптивный градиентный метод, который применим для невыпуклых задач, а также работает с неточным оракулом, который генерируется путем неточного решения внутренней задачи максимизации. Для решения внутренней задачи максимизации мы используем обобщенный ускоренный метод с рестартами, который представляет собой метод, объединяющий методы ускорения высокого порядка для минимизации выпуклой функции, имеющей гёльдерово непрерывные производные высшего порядка. Важной компонентой проведенного анализа сложности предлагаемого алгоритма является разделение оракульных сложностей на число вызовов оракула первого порядка для внешней задачи минимизации и оракула более высокого порядка для внутренней задачи максимизации. Более того, оценивается сложность всего предлагаемого подхода.

  2. Бахвалов Ю.Н., Копылов И.В.
    Обучение и оценка обобщающей способности методов интерполяции
    Компьютерные исследования и моделирование, 2015, т. 7, № 5, с. 1023-1031

    В данной статье исследуются методы машинного обучения с определенным видом решающего правила. К ним относятся интерполяция по методу обратно взвешенных расстояний, метод интерполяции радиальными базисными функциями, метод многомерной интерполяции и аппроксимации на основе теории случайных функций, кригинг. Показано, что для данных методов существует способ быстрого переобучения «модели» при добавлении новых данных к существующим. Под «моделью» понимается построенная по обучающим данным интерполирующая или аппроксимирующая функция. Данный подход позволяет уменьшить вычислительную сложность построения обновленной «модели» с $O(n^3)$ до $O(n^2)$. Также будет исследована возможность быстрого оценивания обобщающих возможностей «модели» на обучающей выборке при помощи метода скользящего контроля leave-one-out cross-validation, устранив главный недостаток такого подхода — необходимость построения новой «модели» при каждом удалении элемента из обучающей выборки.

    Просмотров за год: 7. Цитирований: 5 (РИНЦ).
  3. В данной статье исследуется метод машинного обучения на основе теории случайных функций. Одной из основных проблем данного метода является то, что вид решающего правила модели метода, построенной на данных обучающей выборки, становится более громоздким при увеличении количества примеров выборки. Решающее правило модели является наиболее вероятной реализацией случайной функции и представляется в виде многочлена с количеством слагаемых, равным количеству обучающих элементов выборки. В статье будет показано, что для рассматриваемого метода существует быстрый способ сокращения обучающей выборки и, соответственно, вида решающего правила. Уменьшение примеров обучающей выборки происходит за счет поиска и удаления малоинформативных (слабых) элементов, которые незначительно влияют на итоговый вид решающей функции, и шумовых элементов выборки. Для каждого $(x_i,y_i)$-го элемента выборки было введено понятие значимости, выражающееся величиной отклонения оцененного значения решающей функции модели в точке $x_i$, построенной без $i$-го элемента, от реального значения $y_i$. Будет показана возможность косвенного использования найденных слабых элементов выборки при обучении модели метода, что позволяет не увеличивать количество слагаемых в полученной решающей функции. Также в статье будут описаны проведенные эксперименты, в которых показано, как изменение количества обучающих данных влияет на обобщающую способность решающего правила модели в задаче классификации.

    Просмотров за год: 5.
  4. Зацерковный А.В., Нурминский Е.А.
    Нейросетевой анализ транспортных потоков городских агломераций на основе данных публичных камер видеообзора
    Компьютерные исследования и моделирование, 2021, т. 13, № 2, с. 305-318

    Адекватное моделирование сложной динамики городских транспортных потоков требует сбора больших объемов данных для определения характера соответствующих моделей и их калибровки. Вместе с тем оборудование специализированных постов наблюдения является весьма затратным мероприятием и не всегда технически возможно. Совокупность этих факторов приводит к недостаточному фактографическому обеспечению как систем оперативного управления транспортными потоками, так и специалистов по транспортному планированию с очевидными последствиями для качества принимаемых решений. В качестве способа обеспечить массовый сбор данных хотя бы для качественного анализа ситуаций достаточно давно применяется обзорные видеокамеры, транслирующие изображения в определенные ситуационные центры, где соответствующие операторы осуществляют контроль и управление процессами. Достаточно много таких обзорных камер предоставляют данные своих наблюдений в общий доступ, что делает их ценным ресурсом для транспортных исследований. Вместе с тем получение количественных данных с таких камер сталкивается с существенными проблемами, относящимися к теории и практике обработки видеоизображений, чему и посвящена данная работа. В работе исследуется практическое применение некоторых мейнстримовских нейросетевых технологий для определения основных характеристик реальных транспортных потоков, наблюдаемых камерами общего доступа, классифицируются возникающие при этом проблемы и предлагаются их решения. Для отслеживания объектов дорожного движения применяются варианты сверточных нейронных сетей, исследуются способы их применения для определения базовых характеристик транспортных потоков. Простые варианты нейронной сети используются для автоматизации при получении обучающих примеров для более глубокой нейронной сети YOLOv4. Сеть YOLOv4 использована для оценки характеристик движения (скорость, плотность потока) для различных направлений с записей камер видеонаблюдения.

  5. Гладин Е.Л., Зайнуллина К.Э.
    Метод эллипсоидов для задач выпуклой стохастической оптимизации малой размерности
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1137-1147

    В статье рассматривается задача минимизации математического ожидания выпуклой функции. Задачи такого вида повсеместны в машинном обучении, а также часто возникают в ряде других приложений. На практике для их решения обычно используются процедуры типа стохастического градиентного спуска (SGD). В нашей работе предлагается решать такие задачи с использованием метода эллипсоидов с мини-батчингом. Алгоритм имеет линейную скорость сходимости и может оказаться эффективнее SGD в ряде задач. Это подтверждается в наших экспериментах, исходный код которых находится в открытом доступе. Для получения линейной скорости сходимости метода не требуется ни гладкость, ни сильная выпуклость целевой функции. Таким образом, сложность алгоритма не зависит от обусловленности задачи. В работе доказывается, что метод эллипсоидов с наперед заданной вероятностью находит решение с желаемой точностью при использовании мини-батчей, размер которых пропорционален точности в степени -2. Это позволяет выполнять алгоритм параллельно на большом числе процессоров, тогда как возможности для батчараллелизации процедур типа стохастического градиентного спуска весьма ограничены. Несмотря на быструю сходимость, общее количество вычислений градиента для метода эллипсоидов может получиться больше, чем для SGD, который неплохо сходится и при маленьком размере батча. Количество итераций метода эллипсоидов квадратично зависит от размерности задачи, поэтому метод подойдет для относительно небольших размерностей.

  6. Востриков Д.Д., Конин Г.О., Лобанов А.В., Матюхин В.В.
    Влияние конечности мантиссы на точность безградиентных методов оптимизации
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 259-280

    Безградиентные методы оптимизации, или методы нулевого порядка, широко применяются в обучении нейронных сетей, обучении с подкреплением, а также в промышленных задачах, где доступны лишь значения функции в точке (работа с неаналитическими функциями). В частности, метод обратного распространения ошибки в PyTorch работает именно по этому принципу. Существует общеизвестный факт, что при компьютерных вычислениях используется эвристика чисел с плавающей точкой, и из-за этого возникает проблема конечности мантиссы.

    В этой работе мы, во-первых, сделали обзор наиболее популярных методов аппроксимации градиента: конечная прямая/центральная разность (FFD/FCD), покомпонентная прямая/центральная разность (FWC/CWC), прямая/центральная рандомизация на $l_2$ сфере (FSSG2/CFFG2); во-вторых, мы описали текущие теоретические представления шума, вносимого неточностью вычисления функции в точке: враждебный шум, случайный шум; в-третьих, мы провели серию экспериментов на часто встречающихся классах задач, таких как квадратичная задача, логистическая регрессия, SVM, чтобы попытаться определить, соответствует ли реальная природа машинного шума существующей теории. Оказалось, что в реальности (по крайней мере на тех классах задач, которые были рассмотрены в данной работе) машинный шум оказался чем-то средним между враждебным шумом и случайным, в связи с чем текущая теория о влиянии конечности мантиссы на поиск оптимума в задачах безградиентной оптимизации требует некоторой корректировки.

  7. Зинченко Д.А., Никонов Э.Г., Зинченко А.И.
    Моделирование и анализ основных характеристик внутренней трековой системы многофункционального детектора частиц MPD методом Монте-Карло
    Компьютерные исследования и моделирование, 2019, т. 11, № 1, с. 87-94

    В настоящее время в ОИЯИ (Дубна) осуществляется строительство ускорительного комплекса NICA для проведения экспериментов по изучению взаимодействий релятивистских ядер и поляризованных частиц (протонов и дейтронов). Одна из создаваемых экспериментальных установок MPD (MultiPurpose Detector) рассчитана на изучение ядро-ядерных, протон-ядерных и протон-протонных взаимодействий. В связи с планами развития установки MPD рассматривается возможность создания внутреннего трекера с использованием кремниевых пиксельных детекторов нового поколения. Предполагается, что такой детектор позволит значительно повысить исследовательский потенциал эксперимента как для ядро-ядерных (за счет высокого пространственного разрешения вблизи области пересечения пучков), так и для протон-протонных (за счет высокого быстродействия) взаимодействий.

    В представленной работе изучаются основные характеристики такого трекера с использованием данных по протон-протонным взаимодействиям, полученных с помощью моделирования методом Монте-Карло. В частности, оцениваются возможности детектора по восстановлению вершин распада короткоживущих частиц и по выделению редких событий таких распадов среди продуктов гораздо более вероятных «обычных» взаимодействий. Также затрагивается проблема разделения вершин взаимодействий для восстановления наложенных событий при высокой светимости ускорителя и способность детектора проводить быструю селекцию редких событий (триггер). Полученные результаты могут быть использованы для обоснования необходимости создания данного детектора и развития системы триггера высокого уровня, основанного в том числе на методах машинного обучения.

    Просмотров за год: 28.
  8. Гладин Е.Л., Бородич Е.Д.
    Редукция дисперсии для минимаксных задач с небольшой размерностью одной из переменных
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 257-275

    Статья посвящена выпукло-вогнутым седловым задачам, в которых целевая функция является суммой большого числа слагаемых. Такие задачи привлекают значительное внимание математического сообщества в связи с множеством приложений в машинном обучении, включая adversarial learning, adversarial attacks и robust reinforcement learning, и это лишь некоторые из них. Отдельные функции в сумме обычно представляют собой ошибку, связанную с объектом из выборки. Кроме того, формулировка допускает (возможно, негладкий) композитный член. Такие слагаемые часто отражают регуляризацию в задачах машинного обучения. Предполагается, что размерность одной из групп переменных относительно мала (около сотни или меньше), а другой — велика. Такой случай возникает, например, при рассмотрении двойственной формулировки задачи минимизации с умеренным числом ограничений. Предлагаемый подход основан на использовании метода секущей плоскости Вайды для минимизации относительно внешнего блока переменных. Этот алгоритм оптимизации особенно эффективен, когда размерность задачи не очень велика. Неточный оракул для метода Вайды вычисляется через приближенное решение внутренней задачи максимизации, которая решается ускоренным алгоритмом с редукцией дисперсии Katyusha. Таким образом, мы используем структуру задачи для достижения быстрой сходимости. В исследовании получены отдельные оценки сложности для градиентов различных компонент относительно различных переменных. Предложенный подход накладывает слабые предположения о целевой функции. В частности, не требуется ни сильной выпуклости, ни гладкости относительно низкоразмерной группы переменных. Количество шагов предложенного алгоритма, а также арифметическая сложность каждого шага явно зависят от размерности внешней переменной, отсюда предположение, что она относительно мала.

  9. В данной работе представлены результаты экспериментальной проверки некоторых вопросов, касающихся практического использования методов преодоления катастрофической забывчивости нейронных сетей. Проведено сравнение двух таких современных методов: метода эластичного закрепления весов (EWC, Elastic Weight Consolidation) и метода ослабления скоростей весов (WVA, Weight Velocity Attenuation). Разобраныих преимущества и недостатки в сравнении друг с другом. Показано, что метод эластичного закрепления весов (EWC) лучше применять в задачах, где требуется полностью сохранять выученные навыки на всех задачах в очереди обучения, а метод ослабления скоростей весов (WVA) больше подходит для задач последовательного обучения с сильно ограниченными вычислительными ресурсами или же когда требуется не точное сохранение всех навыков, а переиспользование репрезентаций и ускорение обучения от задачи к задаче. Проверено и подтверждено интуитивное предположение, что ослабление метода WVA необходимо применять к оптимизационному шагу, то есть к приращениям весов нейронной сети, а не к самому градиенту функции потерь, и это справедливо для любого градиентного оптимизационного метода, кроме простейшего стохастического градиентного спуска (SGD), для которого оптимизационный шаг и градиент функции потерь пропорциональны. Рассмотрен выбор оптимальной функции ослабления скоростей весов между гиперболической функцией и экспонентой. Показано, что гиперболическое убывание более предпочтительно, так как, несмотря на сравнимое качество при оптимальных значениях гиперпараметра метода WVA, оно более устойчиво к отклонениям гиперпараметра от оптимального значения (данный гиперпараметр в методе WVA обеспечивает баланс между сохранением старых навыков и обучением новой задаче). Приведены эмпирические наблюдения, которые подтверждают гипотезу о том, что оптимальное значение гиперпараметра не зависит от числа задач в очереди последовательного обучения. Следовательно, данный гиперпараметр может подбираться на небольшом числе задач, а использоваться — на более длинных последовательностях.

  10. Плетнев Н.В.
    Ускоренные адаптивные по константам сильной выпуклости и Липшица для градиента методы первого порядка
    Компьютерные исследования и моделирование, 2021, т. 13, № 5, с. 947-963

    Работа посвящена построению эффективных и применимых к реальным задачам методов выпуклой оптимизации первого порядка, то есть использующих только значения целевой функции и ее производных. При построении используется быстрый градиентный метод OGM-G, который является оптимальным по оракульной сложности (числу вычислений градиента целевой функции), но при запуске требует знания констант сильной выпуклости и Липшица градиента для вычисления количества шагов и длины шага, требуемых для достижения заданной точности. Данное требование усложняет практическое использование метода. Предлагаются адаптивный по константе сильной выпуклости алгоритм ACGM, основанный на рестартах OGM-G с обновлениемо ценки константы сильной выпуклости, и адаптивный по константе Липшица градиента метод ALGM, в котором применение рестартов OGM-G дополнено подбором константы Липшица с проверкой условий гладкости, используемых в методе универсального градиентного спуска. При этом устраняются недостатки исходного метода, связанные с необходимостью знания данных констант, что делает возможным практическое использование. Доказывается, что оценки сложности построенных алгоритмов являются оптимальными с точностью до числового множителя. Для проверки полученных результатов проводятся эксперименты на модельных функциях и реальных задачах машинного обучения.

Страницы: предыдущая следующая последняя »

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.