За межами точності: Аналіз виявлення шкідливого контенту на основі пояснюваності
Автори: Trishita Dhara, Siddhesh Sheth
Опубліковано: 2026-03-20
Переглянути на arXiv →Анотація
Це дослідження виходить за рамки традиційних метрик точності в оцінці систем виявлення шкідливого контенту, включаючи аналіз, керований пояснюваністю. Воно досліджує, як пояснення, надані моделями ШІ, можуть виявляти упередження, вразливості та режими відмов у виявленні шкідливого контенту, що є критично важливим для створення прозорих та відповідальних систем ШІ. Знахідки пропонують ідеї для покращення надійності та справедливості інструментів модерації, що веде до безпечніших онлайн-середовищ.