Гарячий безлад ШІ: Як масштабується невідповідність з інтелектом моделі та складністю завдання?
Автори: Alexander Hägele, Aryo Pradipta Gema, Henry Sleight, Ethan Perez, Jascha Sohl-Dickstein
Опубліковано: 2026-01-30
Переглянути на arXiv →Анотація
Оскільки ШІ стає все більш здібним, ми доручаємо йому більш загальні та відповідальні завдання. Ризики від збоїв зростають зі збільшенням масштабу завдань. Тому важливо розуміти, як саме будуть виходити з ладу надзвичайно здібні моделі ШІ: чи будуть вони систематично переслідувати цілі, яких ми не прагнемо? Або вони будуть "гарячим безладом", здійснюючи безглузді дії, які не сприяють досягненню жодної мети? Ми операціоналізуємо це питання, використовуючи розклад помилок моделей ШІ на упередженість і дисперсію: некогерентність ШІ на задачі вимірюється за випадковістю під час тестування як частка її помилки, що виникає з дисперсії, а не з упередженості в результаті задачі. У всіх завданнях і передових моделях, які ми вимірюємо, ми виявляємо, що чим довше моделі розмірковують і діють, тим більш некогерентними стають їхні збої. Некогерентність змінюється зі масштабом моделі залежно від експерименту. Однак у деяких умовах більші, більш здібні моделі є більш некогерентними, ніж менші моделі. Отже, сам лише масштаб, ймовірно, не усуне некогерентність. Натомість, оскільки більш здібні ШІ виконують складніші завдання, що вимагають більше послідовних дій і роздумів, наші результати передбачають, що збої будуть супроводжуватися більш некогерентною поведінкою. Це свідчить про майбутнє, де ШІ іноді спричиняє промислові аварії (через непередбачувану неналежну поведінку), але рідше демонструє послідовне переслідування невідповідної цілі. Це підвищує відносну важливість досліджень узгодженості, спрямованих на хакінг винагороди або невірне визначення цілей.