Все выпуски
- 2026 Том 18
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Применение алгоритма QUBO для отбора траекторий обучения с подкреплением методом Монте-Карло
Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 273-288Метод Монте-Карло (Monte Carlo, MC) в обучении с подкреплением показывает низкую эффективность при высокой сложности обучающей выборки — в средах с редким вознаграждением, большим пространством состояний и коррелирующими траекториями. Эти ограничения приводят к повышенной вариативности оценок возврата и существенно замедляют процесс сходимости, особенно в задачах, где требуется выделить наиболее информативные эпизоды из большого множества доступных данных. При прямом использовании всех траекторий возникает избыток информации, что ухудшает качество итоговых оценок и увеличивает вычислительную нагрузку. В данной работе мы предлагаем подход, позволяющий преодолеть указанные проблемы за счет оптимизации отбора обучающих данных и структурирования выборки перед применением классического метода Монте-Карло. Задача отбора обучающих траекторий формулируется как квадратичная неограниченная бинарная оптимизация (Quadratic Unconstrained Binary Optimization, QUBO) и решается с помощью алгоритма квантового отжига. Предлагаемый метод MC+QUBO интегрирует комбинаторный фильтрующий шаг в стандартную процедуру оценки: из множества потенциальных траекторий выбирается поднабор, максимизирующий суммарное вознаграждение, обеспечивая при этом достаточное покрытие пространства состояний и снижение взаимной корреляции эпизодов. В QUBO-формулировке линейные члены поощряют включение эпизодов с высоким значением возврата, тогда как квадратичные члены регулируют разнообразие и баланс траекторий, уменьшая риск переобучения на узком подмножестве данных. В качестве решателей из категории «черного ящика» используются алгоритмы симуляции квантового отжига (Simulated Quantum Annealing, SQA) и симулированная бифуркация (Simulated Bifurcation, SB), что позволяет эффективно решать задачи с большим числом потенциальных эпизодов и быстро находить приближенные оптимальные решения. Эксперименты в среде GridWorld показывают, что MC+QUBO превосходит классический метод Монте-Карло по скорости сходимости, устойчивости оценок и качеству итогового обучения, демонстрируя потенциал квантовой оптимизации как инструмента повышения эффективности принятия решений в задачах обучения с подкреплением.
Ключевые слова: метод Монте-Карло, квантовый отжиг, квантовые вычисления, обучение с подкреплением, QUBO. -
О подходе к разработке и валидации алгоритмов маршрутизации на разрывных сетях
Компьютерные исследования и моделирование, 2022, т. 14, № 4, с. 983-993В данной статье рассматривается проблема централизованного планирования маршрутов передачи данных в сетях, устойчивых к задержкам и разрывам. Исходная проблема расширяется дополнительными требованиями к хранению узлов и процессу связи. Во-первых, предполагается, что связь между узлами графа устанавливается с помощью антенн. Во-вторых, предполагается, что каждый узел имеет хранилище конечной емкости. Существующие работы не рассматривают и не решают задачу с этими ограничениями. Предполагается, что заранее известны информация о сообщениях, подлежащих обработке, информация о конфигурации сети в указанные моменты времени, взятые с определенными периодами, информация о временных задержках для ориентации антенн для передачи данных и ограничения на объем хранения данных на каждом спутнике группировки. Два хорошо известных алгоритма — CGR и Earliest Delivery with All Queues — модифицированы для удовлетворения расширенных требований. Полученные алгоритмы решают задачу поиска оптимального маршрута в сети, устойчивой к разрывам, отдельно для каждого сообщения. Также рассматривается проблема валидации алгоритмов в условиях отсутствия тестовых данных. Предложены и апробированы возможные подходы к валидации, основанные на качественных предположениях, описаны результаты экспериментов. Проведен сравнительный анализ производительности двух алгоритмов решения задачи маршрутизации. Два алгоритма, названные RDTNAS-CG и RDTNAS-AQ, были разработаны на основе алгоритмов CGR и Earliest Delivery with All Queues соответственно. Оригинальные алгоритмы были значительно расширены и была разработана дополненная реализация. Валидационные эксперименты были проведены для проверки минимальных требований «качества» к правильности алгоритмов. Сравнительный анализ производительности двух алгоритмов показал, что алгоритм RDTNAS-AQ на несколько порядков быстрее, чем RDTNAS-CG.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"





