Тест DDFT (Drill-Down and Fabricate Test): Протокол для вимірювання епістемічної стійкості в мовних моделях

Автори: Rahul Baxi

Опубліковано: 2026-01-01

Переглянути на arXiv →
#cs.AI

Анотація

Сучасні оцінки мовних моделей вимірюють, що моделі знають за ідеальних умов, але не наскільки надійно вони це знають за реалістичного стресу. Ми представляємо тест DDFT (Drill-Down and Fabricate Test) – протокол, який вимірює епістемічну стійкість: здатність моделі підтримувати фактичну точність за умови прогресивної семантичної компресії та ворожої фабрикації.

Тест DDFT (Drill-Down and Fabricate Test): Протокол для вимірювання епістемічної стійкості в мовних моделях

Автори: Rahul Baxi

Опубліковано: 2026-01-01

Переглянути на arXiv →
#cs.AI

Анотація

Сучасні оцінки мовних моделей вимірюють, що моделі знають за ідеальних умов, але не наскільки надійно вони це знають за реалістичного стресу. Ми представляємо тест DDFT (Drill-Down and Fabricate Test) – протокол, який вимірює епістемічну стійкість: здатність моделі підтримувати фактичну точність за умови прогресивної семантичної компресії та ворожої фабрикації.

FEEDBACK

Проекти

Немає проектів