Вирівняні, ортогональні чи конфліктуючі: Коли ми можемо безпечно оптимізувати ланцюжок думок?
Автори: Max Kaufmann, David Lindner, Roland S. Zimmermann, Rohin Shah
Опубліковано: 2026-03-31
Переглянути на arXiv →Анотація
Моніторинг ланцюжка думок (CoT) є перспективним підходом для нагляду за системами ШІ, але навчання може впливати на його «моніторинговість», змушуючи моделі приховувати міркування. Ця стаття пропонує та емпірично підтверджує концептуальну основу для прогнозування того, коли і чому це відбувається. Вона моделює постнавчання LLM як середовище RL, класифікуючи терміни винагороди для кінцевих результатів і CoT як «узгоджені», «ортогональні» або «конфліктні», і виявляє, що навчання з «конфліктними» термінами зменшує моніторинговість CoT.