Тест DDFT (Drill-Down and Fabricate Test): Протокол для вимірювання епістемічної стійкості в мовних моделях
Автори: Rahul Baxi
Опубліковано: 2026-01-01
Переглянути на arXiv →Анотація
Сучасні оцінки мовних моделей вимірюють, що моделі знають за ідеальних умов, але не наскільки надійно вони це знають за реалістичного стресу. Ми представляємо тест DDFT (Drill-Down and Fabricate Test) – протокол, який вимірює епістемічну стійкість: здатність моделі підтримувати фактичну точність за умови прогресивної семантичної компресії та ворожої фабрикації.