Текущий выпуск Номер 2, 2026 Том 18

Все выпуски

[ Switch to English ]

Применение алгоритма QUBO для отбора траекторий обучения с подкреплением методом Монте-Карло

 pdf (4140K)

Метод Монте-Карло (Monte Carlo, MC) в обучении с подкреплением показывает низкую эффективность при высокой сложности обучающей выборки — в средах с редким вознаграждением, большим пространством состояний и коррелирующими траекториями. Эти ограничения приводят к повышенной вариативности оценок возврата и существенно замедляют процесс сходимости, особенно в задачах, где требуется выделить наиболее информативные эпизоды из большого множества доступных данных. При прямом использовании всех траекторий возникает избыток информации, что ухудшает качество итоговых оценок и увеличивает вычислительную нагрузку. В данной работе мы предлагаем подход, позволяющий преодолеть указанные проблемы за счет оптимизации отбора обучающих данных и структурирования выборки перед применением классического метода Монте-Карло. Задача отбора обучающих траекторий формулируется как квадратичная неограниченная бинарная оптимизация (Quadratic Unconstrained Binary Optimization, QUBO) и решается с помощью алгоритма квантового отжига. Предлагаемый метод MC+QUBO интегрирует комбинаторный фильтрующий шаг в стандартную процедуру оценки: из множества потенциальных траекторий выбирается поднабор, максимизирующий суммарное вознаграждение, обеспечивая при этом достаточное покрытие пространства состояний и снижение взаимной корреляции эпизодов. В QUBO-формулировке линейные члены поощряют включение эпизодов с высоким значением возврата, тогда как квадратичные члены регулируют разнообразие и баланс траекторий, уменьшая риск переобучения на узком подмножестве данных. В качестве решателей из категории «черного ящика» используются алгоритмы симуляции квантового отжига (Simulated Quantum Annealing, SQA) и симулированная бифуркация (Simulated Bifurcation, SB), что позволяет эффективно решать задачи с большим числом потенциальных эпизодов и быстро находить приближенные оптимальные решения. Эксперименты в среде GridWorld показывают, что MC+QUBO превосходит классический метод Монте-Карло по скорости сходимости, устойчивости оценок и качеству итогового обучения, демонстрируя потенциал квантовой оптимизации как инструмента повышения эффективности принятия решений в задачах обучения с подкреплением.

Ключевые слова: метод Монте-Карло, квантовый отжиг, квантовые вычисления, обучение с подкреплением, QUBO
Цитата: Холодов Я.А., Саллум Х., Джнади А., Хубиев К.Ю., Петренко А. Применение алгоритма QUBO для отбора траекторий обучения с подкреплением методом Монте-Карло // Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 273-288
Citation in English: Kholodov Y.A., Salloum H., Jnadi A., Khubiev K.Yu., Petrenko A. Quantum-inspired episode selection for Monte Carlo reinforcement learning via QUBO optimization // Computer Research and Modeling, 2026, vol. 18, no. 2, pp. 273-288
DOI: 10.20537/2076-7633-2026-18-2-273-288
Creative Commons License Статья доступна по лицензии Creative Commons Attribution-NoDerivs 3.0 Unported License.

Copyright © 2026 Холодов Я.А., Саллум Х., Джнади А., Хубиев К.Ю., Петренко А.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.