Текущий выпуск Номер 2, 2026 Том 18

Все выпуски

Результаты поиска по 'квантовый отжиг':
Найдено статей: 2
  1. От редакции
    Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 205-208
  2. Холодов Я.А., Саллум Х., Джнади А., Хубиев К.Ю., Петренко А.
    Применение алгоритма QUBO для отбора траекторий обучения с подкреплением методом Монте-Карло
    Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 273-288

    Метод Монте-Карло (Monte Carlo, MC) в обучении с подкреплением показывает низкую эффективность при высокой сложности обучающей выборки — в средах с редким вознаграждением, большим пространством состояний и коррелирующими траекториями. Эти ограничения приводят к повышенной вариативности оценок возврата и существенно замедляют процесс сходимости, особенно в задачах, где требуется выделить наиболее информативные эпизоды из большого множества доступных данных. При прямом использовании всех траекторий возникает избыток информации, что ухудшает качество итоговых оценок и увеличивает вычислительную нагрузку. В данной работе мы предлагаем подход, позволяющий преодолеть указанные проблемы за счет оптимизации отбора обучающих данных и структурирования выборки перед применением классического метода Монте-Карло. Задача отбора обучающих траекторий формулируется как квадратичная неограниченная бинарная оптимизация (Quadratic Unconstrained Binary Optimization, QUBO) и решается с помощью алгоритма квантового отжига. Предлагаемый метод MC+QUBO интегрирует комбинаторный фильтрующий шаг в стандартную процедуру оценки: из множества потенциальных траекторий выбирается поднабор, максимизирующий суммарное вознаграждение, обеспечивая при этом достаточное покрытие пространства состояний и снижение взаимной корреляции эпизодов. В QUBO-формулировке линейные члены поощряют включение эпизодов с высоким значением возврата, тогда как квадратичные члены регулируют разнообразие и баланс траекторий, уменьшая риск переобучения на узком подмножестве данных. В качестве решателей из категории «черного ящика» используются алгоритмы симуляции квантового отжига (Simulated Quantum Annealing, SQA) и симулированная бифуркация (Simulated Bifurcation, SB), что позволяет эффективно решать задачи с большим числом потенциальных эпизодов и быстро находить приближенные оптимальные решения. Эксперименты в среде GridWorld показывают, что MC+QUBO превосходит классический метод Монте-Карло по скорости сходимости, устойчивости оценок и качеству итогового обучения, демонстрируя потенциал квантовой оптимизации как инструмента повышения эффективности принятия решений в задачах обучения с подкреплением.

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.