Спільне багатоагентне навчання з підкріпленням під час тестування для міркування

Автори: Zhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park

Опубліковано: 2026-01-14

Переглянути на arXiv →
#cs.AI

Анотація

Багатоагентні системи на базі великих мовних моделей (LLM) часто стикаються з проблемою ресурсоємного та нестабільного навчання через нестаціонарність та розріджені винагороди у багатоагентному навчанні з підкріпленням (MARL). Ця стаття представляє багатоагентне навчання з підкріпленням під час тестування (MATTRL) – фреймворк, який вводить структурований текстовий досвід у багатоагентні обговорення під час виведення. MATTRL формує багатоекспертну команду для обговорень, отримує та інтегрує досвід часу тестування та досягає консенсусу. Це значно покращує точність у бенчмарках у медицині, математиці та освіті, пропонуючи стабільний та ефективний шлях до надійного багатоагентного міркування.

Спільне багатоагентне навчання з підкріпленням під час тестування для міркування | ArXiv Intelligence