Декодери прогнозних концепцій: Навчання масштабованих наскрізних помічників для інтерпретованості

Автори: Vincent Huang, Dami Choi, Daniel D. Johnson, Sarah Schwettmann, Jacob Steinhardt

Опубліковано: 2025-12-18

#cs.AI

Анотація

Ця стаття представляє Predictive Concept Decoders (PCDs), нову структуру для навчання масштабованих наскрізних помічників з інтерпретованості. PCDs мають на меті надавати зрозумілі для людини пояснення прогнозів моделей ШІ шляхом прямого відображення внутрішніх активацій на значущі концепції, що дозволяє глибше зрозуміти складні моделі. Цей підхід може значно підвищити довіру та прозорість у реальних програмах ШІ.

Декодери прогнозних концепцій: Навчання масштабованих наскрізних помічників для інтерпретованості

Автори: Vincent Huang, Dami Choi, Daniel D. Johnson, Sarah Schwettmann, Jacob Steinhardt

Опубліковано: 2025-12-18

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів