RoboSafe: Захист вбудованих агентів за допомогою виконуваної логіки безпеки
Автори: Le Wang, Zonghao Ying, Xiao Yang, Quanchen Zou, Zhenfei Yin, Tianlin Li, Jian Yang, Yaodong Yang, Aishan Liu, Xianglong Liu
Опубліковано: 2025-12-24
Переглянути на arXiv →Анотація
Забезпечення безпеки вбудованих агентів штучного інтелекту в складних, неструктурованих середовищах є критичним завданням. Ця стаття представляє RoboSafe, нову структуру, яка інтегрує виконувану логіку безпеки безпосередньо в цикл керування агента. Використовуючи формальні методи та перевірку під час виконання, RoboSafe дозволяє агентам проактивно виявляти та запобігати небезпечним діям, навіть у непередбачених ситуаціях. Система дозволяє визначати політики безпеки за допомогою високорівневої, зрозумілої людині мови, які потім компілюються в ефективні, перевіряються монітори часу виконання. Експериментальні результати демонструють ефективність RoboSafe у запобіганні зіткненням, дотриманні людських кордонів та уникненні небезпечних станів, значно підвищуючи надійність та можливість розгортання вбудованих систем штучного інтелекту в критично важливих для безпеки додатках.