Послідовність великих моделей міркувань під багатоходовими атаками

Автори: Yubo Li, Ramayya Krishnan, Rema Padman

Опубліковано: 2026-02-13

Переглянути на arXiv →
#cs.AI

Анотація

Великі моделі міркувань демонструють найсучаснішу продуктивність у складних завданнях, але їхня стійкість до багатоходових ворожих атак залишається недослідженою. У цій статті оцінюються дев'ять передових моделей міркувань, які показують, що, хоча міркування забезпечує певну стійкість, усі моделі мають різні вразливості. За допомогою аналізу траєкторій виявлено п'ять режимів відмов, причому сумніви в собі та соціальна конформність становлять 50% відмов. Дослідження також показує, що генерація відповідей з урахуванням впевненості (CARG), ефективна для стандартних LLM, не працює для моделей міркувань через надмірну впевненість, що вказує на необхідність фундаментального перероблення засобів захисту на основі впевненості для моделей міркувань.

Послідовність великих моделей міркувань під багатоходовими атаками | ArXiv Intelligence