Навчання, коли діяти чи відмовлятися: Захист агентних моделей міркування для безпечного багатоетапного використання інструментів
Автори: Aradhye Agarwal, Gurdit Siyan, Yash Pandya, Joykirat Singh, Akshay Nambi, Ahmed Awadallah
Опубліковано: 2026-03-04
Переглянути на arXiv →Анотація
Агентні моделі міркування, які використовують зовнішні інструменти для виконання багатоетапних завдань, мають величезний потенціал, але також створюють нові виклики безпеці. Критично важливим аспектом їхнього безпечного розгортання є здатність інтелектуально вирішувати, коли діяти, а коли відмовлятися від дії, особливо коли вони стикаються з невизначеними або потенційно шкідливими результатами використання інструментів. Ця стаття пропонує новий фреймворк для захисту агентних моделей міркування шляхом їх явного навчання політикам відмови. Наш підхід інтегрує модуль оцінки впевненості та механізм відмови безпосередньо в цикл прийняття рішень агента. Модуль впевненості оцінює надійність згенерованих викликів інструментів та проміжних етапів міркування, тоді як механізм відмови запускає безпечний запасний варіант (наприклад, звернення за допомогою людини або перепланування), якщо впевненість падає нижче встановленого порогу. Завдяки широким експериментам на різних бенчмарках використання інструментів, що включають веб-навігацію, виклики API та виконання коду, ми демонструємо, що наш захищений агент значно покращує безпеку та надійність, зменшуючи шкідливі дії та помилкове використання інструментів до 70% при збереженні високих показників виконання завдань. Ця робота є важливим кроком до створення більш надійних та контрольованих агентних систем ШІ для реальних застосувань.