За межами точності: Аналіз виявлення шкідливого контенту на основі пояснюваності

Автори: Trishita Dhara, Siddhesh Sheth

Опубліковано: 2026-03-20

Переглянути на arXiv →
#cs.AI

Анотація

Це дослідження виходить за рамки традиційних метрик точності в оцінці систем виявлення шкідливого контенту, включаючи аналіз, керований пояснюваністю. Воно досліджує, як пояснення, надані моделями ШІ, можуть виявляти упередження, вразливості та режими відмов у виявленні шкідливого контенту, що є критично важливим для створення прозорих та відповідальних систем ШІ. Знахідки пропонують ідеї для покращення надійності та справедливості інструментів модерації, що веде до безпечніших онлайн-середовищ.

За межами точності: Аналіз виявлення шкідливого контенту на основі пояснюваності

Автори: Trishita Dhara, Siddhesh Sheth

Опубліковано: 2026-03-20

Переглянути на arXiv →
#cs.AI

Анотація

Це дослідження виходить за рамки традиційних метрик точності в оцінці систем виявлення шкідливого контенту, включаючи аналіз, керований пояснюваністю. Воно досліджує, як пояснення, надані моделями ШІ, можуть виявляти упередження, вразливості та режими відмов у виявленні шкідливого контенту, що є критично важливим для створення прозорих та відповідальних систем ШІ. Знахідки пропонують ідеї для покращення надійності та справедливості інструментів модерації, що веде до безпечніших онлайн-середовищ.

FEEDBACK

Проекти

Немає проектів

За межами точності: Аналіз виявлення шкідливого контенту на основі пояснюваності | ArXiv Intelligence