Чи може навчання з підкріпленням покращити узагальнення агентів LLM? Емпіричне дослідження

Автори: Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang

Опубліковано: 2026-03-13

Переглянути на arXiv →

#cs.AI

Анотація

Це емпіричне дослідження з'ясовує, чи може навчання з підкріпленням (RL) покращити можливості узагальнення агентів великих мовних моделей (LLM). Дослідження вивчає різні методи RL та їх вплив на продуктивність агентів LLM у різноманітних та невидимих завданнях.

Чи може навчання з підкріпленням покращити узагальнення агентів LLM? Емпіричне дослідження

Автори: Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang

Опубліковано: 2026-03-13

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів