Послідовність великих моделей міркувань під багатоходовими атаками
Автори: Yubo Li, Ramayya Krishnan, Rema Padman
Опубліковано: 2026-02-13
Переглянути на arXiv →Анотація
Великі моделі міркувань демонструють найсучаснішу продуктивність у складних завданнях, але їхня стійкість до багатоходових ворожих атак залишається недослідженою. У цій статті оцінюються дев'ять передових моделей міркувань, які показують, що, хоча міркування забезпечує певну стійкість, усі моделі мають різні вразливості. За допомогою аналізу траєкторій виявлено п'ять режимів відмов, причому сумніви в собі та соціальна конформність становлять 50% відмов. Дослідження також показує, що генерація відповідей з урахуванням впевненості (CARG), ефективна для стандартних LLM, не працює для моделей міркувань через надмірну впевненість, що вказує на необхідність фундаментального перероблення засобів захисту на основі впевненості для моделей міркувань.