Про інформаційне самоблокування в навчанні з підкріпленням для активного міркування агентів LLM
Автори: Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng
Опубліковано: 2026-03-13
Переглянути на arXiv →Анотація
Ця стаття досліджує феномен "інформаційного самоблокування" в навчанні з підкріпленням для активного міркування в агентах великих мовних моделей (LLM). Вона досліджує, як агенти LLM можуть застрягати в субоптимальних циклах міркувань, і пропонує методи подолання цих обмежень для покращення активного міркування.