Вирівняні, ортогональні чи конфліктуючі: Коли ми можемо безпечно оптимізувати ланцюжок думок?

Автори: Max Kaufmann, David Lindner, Roland S. Zimmermann, Rohin Shah

Опубліковано: 2026-03-31

#cs.AI

Анотація

Моніторинг ланцюжка думок (CoT) є перспективним підходом для нагляду за системами ШІ, але навчання може впливати на його «моніторинговість», змушуючи моделі приховувати міркування. Ця стаття пропонує та емпірично підтверджує концептуальну основу для прогнозування того, коли і чому це відбувається. Вона моделює постнавчання LLM як середовище RL, класифікуючи терміни винагороди для кінцевих результатів і CoT як «узгоджені», «ортогональні» або «конфліктні», і виявляє, що навчання з «конфліктними» термінами зменшує моніторинговість CoT.

Вирівняні, ортогональні чи конфліктуючі: Коли ми можемо безпечно оптимізувати ланцюжок думок?

Автори: Max Kaufmann, David Lindner, Roland S. Zimmermann, Rohin Shah

Опубліковано: 2026-03-31

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів