SkillRL: Еволюція агентів через рекурсивне навчання з підкріпленням, доповнене навичками

Автори: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao

Опубліковано: 2026-02-09

Переглянути на arXiv →

#cs.AI

Анотація

Агенти великих мовних моделей (LLM) мають труднощі з навчанням на основі минулого досвіду, оскільки існуючі методи пам'яті часто зберігають надлишкові траєкторії та не можуть видобувати високорівневі закономірності. SkillRL вирішує цю проблему, поєднуючи необроблений досвід та ефективне покращення політики за допомогою автоматичного виявлення навичок та рекурсивної еволюції навичок. Він створює ієрархічний SkillBank, використовує адаптивну стратегію вилучення та включає механізм рекурсивної еволюції, значно зменшуючи використання токенів та підвищуючи корисність міркувань. Експериментальні результати на ALFWorld, WebShop та завданнях з доповненим пошуком демонструють найсучаснішу продуктивність, перевершуючи сильні базові показники більш ніж на 15,3% та зберігаючи надійність зі зростанням складності завдання.

SkillRL: Еволюція агентів через рекурсивне навчання з підкріпленням, доповнене навичками

Автори: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao

Опубліковано: 2026-02-09

Переглянути на arXiv →

#cs.AI

Анотація

Агенти великих мовних моделей (LLM) мають труднощі з навчанням на основі минулого досвіду, оскільки існуючі методи пам'яті часто зберігають надлишкові траєкторії та не можуть видобувати високорівневі закономірності. SkillRL вирішує цю проблему, поєднуючи необроблений досвід та ефективне покращення політики за допомогою автоматичного виявлення навичок та рекурсивної еволюції навичок. Він створює ієрархічний SkillBank, використовує адаптивну стратегію вилучення та включає механізм рекурсивної еволюції, значно зменшуючи використання токенів та підвищуючи корисність міркувань. Експериментальні результати на ALFWorld, WebShop та завданнях з доповненим пошуком демонструють найсучаснішу продуктивність, перевершуючи сильні базові показники більш ніж на 15,3% та зберігаючи надійність зі зростанням складності завдання.

Проекти

Немає проектів

SkillRL: Еволюція агентів через рекурсивне навчання з підкріпленням, доповнене навичками | ArXiv Intelligence