Jackpot: оптимальна вибірка відхилення з бюджетом для навчання з підкріпленням із екстремальним розбіжністю актора та політики
Автори: Zhuoming Chen, Hongyi Liu, Yang Zhou, Haizhong Zheng, Beidi Chen
Опубліковано: 2026-02-09
Переглянути на arXiv →Анотація
Ця стаття представляє 'Jackpot', фреймворк, розроблений для підвищення ефективності навчання з підкріпленням (RL) для великих мовних моделей (LLM) шляхом зменшення розбіжності розподілу між моделлю розгортання та еволюційною політикою. Він пропонує значний потенціал для зниження обчислювальних витрат у RL.