OGER: Надійна винагорода за дослідження з офлайн-керуванням для гібридного навчання з підкріпленням

Автори: Xinyu Ma, Mingzhou Xu, Xuebo Liu, Chang Jin, Qiang Wang, Derek F. Wong, Min Zhang

Опубліковано: 2026-04-21

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття пропонує OGER, нову гібридну структуру навчання з підкріпленням, яка синергійно інтегрує офлайн-керівництво експертів з онлайн-дослідницьким відкриттям через спеціалізовану лінзу моделювання винагороди. OGER використовує спільне навчання з кількома вчителями та конструює допоміжну винагороду за дослідження, яка порівнює онлайн-траєкторії з ансамблем високоякісних офлайн-траєкторій вчителів за дивергенцією. Цей механізм стимулює автономне дослідження та сприяє відкриттю за межами імітації, досягаючи значних покращень продуктивності в бенчмарках математичного та загального міркування, забезпечуючи при цьому надійну узагальненість для задач, що виходять за межі домену.

OGER: Надійна винагорода за дослідження з офлайн-керуванням для гібридного навчання з підкріпленням | ArXiv Intelligence