Чи може навчання з підкріпленням покращити узагальнення агентів LLM? Емпіричне дослідження
Автори: Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
Опубліковано: 2026-03-13
Переглянути на arXiv →Анотація
Це емпіричне дослідження з'ясовує, чи може навчання з підкріпленням (RL) покращити можливості узагальнення агентів великих мовних моделей (LLM). Дослідження вивчає різні методи RL та їх вплив на продуктивність агентів LLM у різноманітних та невидимих завданнях.