Моральне стрес-тестування великих мовних моделей із застосуванням змагальних атак

Автори: Saeid Jamshidi, Foutse Khomh, Arghavan Moradi Dakhel, Amin Nikanjam, Mohammad Hamdaqa, Kawser Wazed Nafi

Опубліковано: 2026-04-02

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття досліджує моральне стрес-тестування великих мовних моделей із застосуванням змагальних атак, спрямоване на виявлення вразливостей та упереджень у їхніх процесах прийняття етичних рішень у складних умовах. Це необхідно для розгортання етичних та надійних систем штучного інтелекту.

Моральне стрес-тестування великих мовних моделей із застосуванням змагальних атак

Автори: Saeid Jamshidi, Foutse Khomh, Arghavan Moradi Dakhel, Amin Nikanjam, Mohammad Hamdaqa, Kawser Wazed Nafi

Опубліковано: 2026-04-02

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття досліджує моральне стрес-тестування великих мовних моделей із застосуванням змагальних атак, спрямоване на виявлення вразливостей та упереджень у їхніх процесах прийняття етичних рішень у складних умовах. Це необхідно для розгортання етичних та надійних систем штучного інтелекту.

FEEDBACK

Проекти

Немає проектів