Спільне багатоагентне навчання з підкріпленням під час тестування для міркування
Автори: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park
Опубліковано: 2026-01-14
Переглянути на arXiv →Анотація
Багатоагентні системи на базі великих мовних моделей (LLM) часто стикаються з проблемою ресурсоємного та нестабільного навчання через нестаціонарність та розріджені винагороди у багатоагентному навчанні з підкріпленням (MARL). Ця стаття представляє багатоагентне навчання з підкріпленням під час тестування (MATTRL) – фреймворк, який вводить структурований текстовий досвід у багатоагентні обговорення під час виведення. MATTRL формує багатоекспертну команду для обговорень, отримує та інтегрує досвід часу тестування та досягає консенсусу. Це значно покращує точність у бенчмарках у медицині, математиці та освіті, пропонуючи стабільний та ефективний шлях до надійного багатоагентного міркування.