HiL-Bench (Бенчмарк "людина в циклі"): Чи знають агенти, коли просити допомоги?

Автори: Mohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu

Опубліковано: 2026-04-13

Переглянути на arXiv →

#cs.AI

Анотація

Ця стаття представляє HiL-Bench, бенчмарк "людина в циклі", розроблений для вимірювання критичної здатності ШІ-агентів звертатися за допомогою. Він оцінює здатність агента розпізнавати, коли інформація відсутня, неоднозначна або суперечлива, і проактивно ставити цільові запитання, а не робити припущень. Бенчмарк використовує завдання з перевіреними людиною блокерами, які виникають під час прогресивного дослідження, виявляючи значний пробіл у судженнях сучасних передових моделей та демонструючи, що ця навичка вибіркової ескалації є тренованою.

Проекти

Немає проектів