RL-MTJail: Навчання з підкріпленням для автоматизованого чорноящикового багатоходового "джейлбрейку" великих мовних моделей

Автори: Xiqiao Xiong, Ouxiang Li, Zhuo Liu, Moxin Li, Wentao Shi, Fuli Feng, Xiangnan He

Опубліковано: 2025-12-09

#cs.AI

Анотація

Це дослідження пропонує RL-MTJail, підхід навчання з підкріпленням для автоматизованого чорноящикового багатоходового "джейлбрейку" великих мовних моделей. Дослідження надає важливі висновки для підвищення безпеки великих мовних моделей та розробки надійних засобів захисту від ворожих атак і зловмисних підказок у практичних розгортаннях.

RL-MTJail: Навчання з підкріпленням для автоматизованого чорноящикового багатоходового "джейлбрейку" великих мовних моделей

Автори: Xiqiao Xiong, Ouxiang Li, Zhuo Liu, Moxin Li, Wentao Shi, Fuli Feng, Xiangnan He

Опубліковано: 2025-12-09

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів