Моральне стрес-тестування великих мовних моделей із застосуванням змагальних атак
Автори: Saeid Jamshidi, Foutse Khomh, Arghavan Moradi Dakhel, Amin Nikanjam, Mohammad Hamdaqa, Kawser Wazed Nafi
Опубліковано: 2026-04-02
Переглянути на arXiv →Анотація
Ця стаття досліджує моральне стрес-тестування великих мовних моделей із застосуванням змагальних атак, спрямоване на виявлення вразливостей та упереджень у їхніх процесах прийняття етичних рішень у складних умовах. Це необхідно для розгортання етичних та надійних систем штучного інтелекту.