GT-HarmBench: Бенчмаркінг ризиків безпеки ШІ через призму теорії ігор

Автори: Pepijn Cobben, Xuanqiang Angelo Huang, Thao Amelia Pham, Isabel Dahlgren, Terry Jingchen Zhang, Zhijing Jin

Опубліковано: 2026-02-16

Переглянути на arXiv →
#cs.AI

Анотація

Прикордонні системи штучного інтелекту стають все більш потужними та розгортаються у багатоагентних середовищах з високими ставками. Однак існуючі бенчмарки безпеки ШІ значною мірою оцінюють окремих агентів, залишаючи ризики багатоагентних систем, такі як збій координації та конфлікти, погано вивченими. Ми представляємо GT-HarmBench, бенчмарк з 2009 сценаріїв високого ризику, що охоплюють ігротеоретичні структури, такі як Дилема в'язня, Полювання на оленя та Курча. Сценарії взяті з реалістичних контекстів ризику ШІ у сховищі ризиків ШІ MIT. Ми також показуємо, що ігротеоретичні втручання покращують соціально корисні результати до 18%. Наші результати підкреслюють значні прогалини в надійності та надають широке стандартизоване випробувальне середовище для вивчення узгодження в багатоагентних середовищах.