RLAnything: Створення середовища, політики та моделі винагороди в повністю динамічній системі навчання з підкріпленням
Автори: Yinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang
Опубліковано: 2026-02-02
Переглянути на arXiv →Анотація
Ми пропонуємо RLAnything, структуру навчання з підкріпленням, яка динамічно формує середовище, політику та моделі винагороди через оптимізацію замкнутого циклу, посилюючи сигнали навчання та зміцнюючи загальну систему RL для будь-яких сценаріїв LLM або агентів. Зокрема, політика навчається з інтегрованим зворотним зв'язком від покрокових сигналів та сигналів результату, тоді як модель винагороди спільно оптимізується за допомогою зворотного зв'язку узгодженості, що, у свою чергу, додатково покращує навчання політики. Більше того, наша теоретично обґрунтована автоматична адаптація середовища покращує навчання як для моделі винагороди, так і для моделей політики, використовуючи зворотний зв'язок критика від кожної, уможливлюючи навчання на основі досвіду. Емпірично кожен доданий компонент послідовно покращує загальну систему, а RLAnything дає суттєві переваги в різних репрезентативних завданнях LLM та агентів, збільшуючи Qwen3-VL-8B-Thinking by 9.1% on OSWorld and Qwen2.5-7B-Instruct by 18.7% and 11.9% on AlfWorld and LiveBench, respectively. Ми також показуємо, що оптимізовані сигнали моделі винагороди перевершують результати, які покладаються на людські мітки.