AgentDrift: Небезпечний Дрейф Рекомендацій за Умови Пошкодження Інструментів, Прихований Метриками Ранжування в LLM-Агентах
Автори: Zeke Woo, Maria Persz Orortiz
Опубліковано: 2026-03-30
Переглянути на arXiv →#cs.AI
Анотація
Ця стаття виявляє критичну і раніше приховану вразливість безпеки в LLM-агентах, доповнених інструментами, демонструючи, що стандартні метрики оцінки можуть приховувати небезпечний дрейф рекомендацій за умови пошкодження інструментів, що є надзвичайною проблемою для розгортання надійних систем ШІ.