Jackpot: оптимальна вибірка відхилення з бюджетом для навчання з підкріпленням із екстремальним розбіжністю актора та політики

Автори: Zhuoming Chen, Hongyi Liu, Yang Zhou, Haizhong Zheng, Beidi Chen

Опубліковано: 2026-02-09

#cs.AI

Анотація

Ця стаття представляє 'Jackpot', фреймворк, розроблений для підвищення ефективності навчання з підкріпленням (RL) для великих мовних моделей (LLM) шляхом зменшення розбіжності розподілу між моделлю розгортання та еволюційною політикою. Він пропонує значний потенціал для зниження обчислювальних витрат у RL.

Jackpot: оптимальна вибірка відхилення з бюджетом для навчання з підкріпленням із екстремальним розбіжністю актора та політики

Автори: Zhuoming Chen, Hongyi Liu, Yang Zhou, Haizhong Zheng, Beidi Chen

Опубліковано: 2026-02-09

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів