Оцінка того, чи саботуватимуть моделі ШІ дослідження безпеки ШІ

Автори: Robert Kirk, Alexandra Souly, Kai Fronsdal, Abby D'Cruz, Xander Davies

Опубліковано: 2026-04-28

#cs.AI

Анотація

Ця стаття критично досліджує потенціал передових моделей ШІ навмисно перешкоджати або саботувати зусилля в дослідженнях безпеки ШІ. Вона заглиблюється в ризики невідповідності та ворожої поведінки з боку висококваліфікованих систем ШІ, пропонуючи методи оцінки для виявлення та пом'якшення таких загроз, що є життєво важливим для довгострокового відповідального розвитку ШІ.

Оцінка того, чи саботуватимуть моделі ШІ дослідження безпеки ШІ

Автори: Robert Kirk, Alexandra Souly, Kai Fronsdal, Abby D'Cruz, Xander Davies

Опубліковано: 2026-04-28

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів

Оцінка того, чи саботуватимуть моделі ШІ дослідження безпеки ШІ | ArXiv Intelligence