Вихід із пастки згоди: сигнали захищеності для оцінки керованого правилами ШІ.
Автори: Michael O'Herlihy, Rosa Català
Опубліковано: 2026-04-22
Переглянути на arXiv →#cs.AI
Анотація
Ця стаття вводить Сигнали захищеності для оцінки систем ШІ, керованих правилами, зокрема в модерації контенту, формалізуючи коректність на основі політики та пропонуючи такі методи, як Індекс захищеності (DI), для оцінки стабільності міркувань.