RL-MTJail: Навчання з підкріпленням для автоматизованого чорноящикового багатоходового "джейлбрейку" великих мовних моделей
Автори: Xiqiao Xiong, Ouxiang Li, Zhuo Liu, Moxin Li, Wentao Shi, Fuli Feng, Xiangnan He
Опубліковано: 2025-12-09
Переглянути на arXiv →Анотація
Це дослідження пропонує RL-MTJail, підхід навчання з підкріпленням для автоматизованого чорноящикового багатоходового "джейлбрейку" великих мовних моделей. Дослідження надає важливі висновки для підвищення безпеки великих мовних моделей та розробки надійних засобів захисту від ворожих атак і зловмисних підказок у практичних розгортаннях.