Виявлення відмінностей у стратегічній поведінці між людьми та великими мовними моделями
Автори: Caroline Wang, Daniel Kasenberg, Kim Stachenfeld, Pablo Samuel Castro
Опубліковано: 2026-02-10
Переглянути на arXiv →Анотація
Оскільки великі мовні моделі (LLM) все частіше розгортаються в соціальних і стратегічних сценаріях, стає критично важливим зрозуміти, де і чому їхня поведінка відрізняється від поведінки людей. Хоча поведінкова теорія ігор (BGT) надає основу для аналізу поведінки, існуючі моделі не повністю охоплюють ідіосинкратичну поведінку людей або чорних скриньок, нелюдських агентів, таких як LLM. Ця стаття надає всебічний емпіричний аналіз поведінки LLM у різних стратегічних іграх, ідентифікуючи систематичні відхилення від людських моделей прийняття рішень та пропонуючи уявлення про наслідки для розробки надійних та етично узгоджених систем ШІ в багатоагентних середовищах.
Вплив
practical
Теми
6
💡 Просте пояснення
Вчені змусили чат-ботів грати в психологічні ігри, що включають гроші та стратегію, і порівняли результати з тим, як грають люди. Вони виявили, що ШІ, як правило, занадто милі, схильні до співпраці та бояться ризику, ймовірно, тому що їх навчали бути ввічливими помічниками. Це означає, що ШІ наразі можуть бути поганими у жорстких бізнес-переговорах, але чудовими у співпраці.
🎯 Постановка проблеми
Оскільки LLM все частіше розгортаються як автономні агенти, невідомо, чи відповідає їхня стратегічна поведінка людським нормам або математичній раціональності, що створює ризики в автоматизованих переговорах та економічному моделюванні.
🔬 Методологія
Порівняльний аналіз з використанням набору з 10 стандартних економічних ігор (наприклад, Дилема в'язня, Полювання на оленя). Моделям (GPT-4, Llama-3, Claude) надавали правила та просили прийняти рішення. Результати порівнювалися з історичними даними людей з літератури експериментальної економіки з використанням метрик статистичної відстані.
📊 Результати
LLM продемонстрували сильний ухил до співпраці (70-90% рівня співпраці в Дилемі в'язня) порівняно з людьми (40-60%). Вони часто не використовували слабших опонентів, віддаючи перевагу «справедливим» результатам, навіть коли їм було чітко доручено максимізувати прибуток. Однак підказки типу «ланцюжок думок» наближали їхню поведінку до рівноваги Неша.
✨ Ключові висновки
Поточні LLM за замовчуванням є «Добрими самаритянами» через RLHF, що робить їх поганими проксі для конкурентної людської поведінки без спеціального налаштування. Для реалістичних симуляцій ми повинні враховувати цей «податок на доброту» або розробляти спеціальні «егоїстичні» моделі.
🔍 Критичний аналіз
Стаття надає переконливий зріз поточних обмежень моделей, але, можливо, плутає «вирівнювання навчання» з «внутрішньою неспроможністю». Цілком можливо, що інженерія підказок була недостатньою для розблокування «безжальних» дій. Крім того, порівняння текстової симуляції з реальною людською поведінкою з високими ставками завжди несе ризик екологічної валідності.
💰 Практичне застосування
- Консалтингові послуги з оптимізації параметрів ШІ-агентів для конкретних ринкових умов.
- Ліцензування наборів даних, «вирівняних під людину», для RLHF, щоб зробити моделі менш роботизованими.
- SaaS-платформа для автоматизованого вирішення суперечок за допомогою «справедливого» ШІ.