Виявлення змови кількох агентів за допомогою інтерпретованості кількох агентів
Автори: Aaron Rose, Carissa Cullen, Brandon Gary Kaplowitz, Christian Schroeder de Witt
Опубліковано: 2026-04-02
Переглянути на arXiv →Анотація
Оскільки агенти LLM все частіше розгортаються в багатоагентних системах, вони створюють ризики прихованої координації, яка може ухилятися від стандартного людського нагляду. Ця робота представляє NARCBench, еталон для оцінки виявлення змови за умови зсуву розподілу середовища, і пропонує п'ять методів дослідження, які агрегують показники обману кожного агента для класифікації сценаріїв на груповому рівні. Результати свідчать про те, що внутрішні компоненти моделі забезпечують додатковий сигнал для моніторингу на текстовому рівні для виявлення змови кількох агентів.