Стрес-тестування великих мовних моделей на моральну стійкість до атак

Автори: Saeid Jamshidi, Foutse Khomh, Arghavan Moradi Dakhel, Amin Nikanjam, Mohammad Hamdaqa, Kawser Wazed Nafi

Опубліковано: 2026-04-02

Переглянути на arXiv →
#cs.AI

Анотація

Оцінка етичної надійності великих мовних моделей (LLM), розгорнутих у програмних системах, залишається складною задачею, особливо за умови тривалої ворожої взаємодії з користувачем. Ця стаття представляє Adversarial Moral Stress Testing (AMST), фреймворк оцінки на основі стресу для вимірювання етичної надійності за умов ворожих багатоетапних взаємодій. AMST застосовує структуровані стресові перетворення до підказок та оцінює поведінку моделі за допомогою метрик надійності, що враховують розподіл. Результати демонструють суттєві відмінності в профілях надійності між моделями та виявляють моделі деградації, які не спостерігаються за звичайної однораундової оцінки.

Стрес-тестування великих мовних моделей на моральну стійкість до атак

Автори: Saeid Jamshidi, Foutse Khomh, Arghavan Moradi Dakhel, Amin Nikanjam, Mohammad Hamdaqa, Kawser Wazed Nafi

Опубліковано: 2026-04-02

Переглянути на arXiv →
#cs.AI

Анотація

Оцінка етичної надійності великих мовних моделей (LLM), розгорнутих у програмних системах, залишається складною задачею, особливо за умови тривалої ворожої взаємодії з користувачем. Ця стаття представляє Adversarial Moral Stress Testing (AMST), фреймворк оцінки на основі стресу для вимірювання етичної надійності за умов ворожих багатоетапних взаємодій. AMST застосовує структуровані стресові перетворення до підказок та оцінює поведінку моделі за допомогою метрик надійності, що враховують розподіл. Результати демонструють суттєві відмінності в профілях надійності між моделями та виявляють моделі деградації, які не спостерігаються за звичайної однораундової оцінки.

FEEDBACK

Проекти

Немає проектів

Стрес-тестування великих мовних моделей на моральну стійкість до атак | ArXiv Intelligence