OGER: Надійна винагорода за дослідження з офлайн-керуванням для гібридного навчання з підкріпленням
Автори: Xinyu Ma, Mingzhou Xu, Xuebo Liu, Chang Jin, Qiang Wang, Derek F. Wong, Min Zhang
Опубліковано: 2026-04-21
Переглянути на arXiv →Анотація
Ця стаття пропонує OGER, нову гібридну структуру навчання з підкріпленням, яка синергійно інтегрує офлайн-керівництво експертів з онлайн-дослідницьким відкриттям через спеціалізовану лінзу моделювання винагороди. OGER використовує спільне навчання з кількома вчителями та конструює допоміжну винагороду за дослідження, яка порівнює онлайн-траєкторії з ансамблем високоякісних офлайн-траєкторій вчителів за дивергенцією. Цей механізм стимулює автономне дослідження та сприяє відкриттю за межами імітації, досягаючи значних покращень продуктивності в бенчмарках математичного та загального міркування, забезпечуючи при цьому надійну узагальненість для задач, що виходять за межі домену.