Декодери прогнозних концепцій: Навчання масштабованих наскрізних помічників для інтерпретованості
Автори: Vincent Huang, Dami Choi, Daniel D. Johnson, Sarah Schwettmann, Jacob Steinhardt
Опубліковано: 2025-12-18
Переглянути на arXiv →Анотація
Ця стаття представляє Predictive Concept Decoders (PCDs), нову структуру для навчання масштабованих наскрізних помічників з інтерпретованості. PCDs мають на меті надавати зрозумілі для людини пояснення прогнозів моделей ШІ шляхом прямого відображення внутрішніх активацій на значущі концепції, що дозволяє глибше зрозуміти складні моделі. Цей підхід може значно підвищити довіру та прозорість у реальних програмах ШІ.