AgentDrift: Небезпечний Дрейф Рекомендацій за Умови Пошкодження Інструментів, Прихований Метриками Ранжування в LLM-Агентах

Автори: Zeke Woo, Maria Persz Orortiz

Опубліковано: 2026-03-30

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття виявляє критичну і раніше приховану вразливість безпеки в LLM-агентах, доповнених інструментами, демонструючи, що стандартні метрики оцінки можуть приховувати небезпечний дрейф рекомендацій за умови пошкодження інструментів, що є надзвичайною проблемою для розгортання надійних систем ШІ.

AgentDrift: Небезпечний Дрейф Рекомендацій за Умови Пошкодження Інструментів, Прихований Метриками Ранжування в LLM-Агентах

Автори: Zeke Woo, Maria Persz Orortiz

Опубліковано: 2026-03-30

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття виявляє критичну і раніше приховану вразливість безпеки в LLM-агентах, доповнених інструментами, демонструючи, що стандартні метрики оцінки можуть приховувати небезпечний дрейф рекомендацій за умови пошкодження інструментів, що є надзвичайною проблемою для розгортання надійних систем ШІ.

FEEDBACK

Проекти

Немає проектів

AgentDrift: Небезпечний Дрейф Рекомендацій за Умови Пошкодження Інструментів, Прихований Метриками Ранжування в LLM-Агентах | ArXiv Intelligence