CM2: Навчання з підкріпленням із винагородами на основі контрольного списку для багатоходового та багатоетапного використання агентних інструментів
Автори: Zhen Zhang, Kaiqiang Song, Xun Wang, Yebowen Hu, Weixiang Yan, Chenyang Zhao, Henry Peng Zou, Haoyun Deng, Sathish Reddy Indurthi, Shujian Liu, Simin Ma, Xiaoyang Wang, Xin Eric Wang, Song Wang
Опубліковано: 2026-02-13
Переглянути на arXiv →Анотація
Винагороди на основі контрольного списку пропонують структурований спосіб керування агентами навчання з підкріпленням через складні, багатоетапні завдання, що вимагають використання інструментів та багатоходової взаємодії. Ця стаття представляє CM2, нову структуру, що використовує такі винагороди для підвищення продуктивності агентів у складних середовищах. Розбиваючи завдання на керовані підцілі, представлені у вигляді контрольного списку, CM2 дозволяє агентам навчатися ефективніше та надійніше, особливо в сценаріях, де послідовне прийняття рішень та точне застосування інструментів є вирішальними. Експерименти демонструють значні покращення показників виконання завдань та загальної ефективності агента порівняно з традиційними механізмами винагороди.