За межами виконання завдань: Виявлення помилкових успіхів у агентах LLM за допомогою оцінки, що враховує процедури
Автори: Hongliu Cao, Ilias Driouich, Eoin Thomas
Опубліковано: 2026-03-04
Переглянути на arXiv →Анотація
Агенти, засновані на великих мовних моделях (LLM), все частіше застосовуються у відповідальних сферах, але сучасні бенчмарки оцінюють переважно те, чи було виконано завдання, а не те, як. Ми представляємо оцінку, що враховує процедури (PAE) — фреймворк, який формалізує процедури агентів як структуровані спостереження та виявляє зв'язки узгодженості між тим, що агенти спостерігають, комунікують та виконують. PAE оцінює агентів за взаємодоповнюючими осями (корисність, ефективність, якість взаємодії, цілісність процедур) та застосовує багатовимірне відсіювання, яке категорично дискваліфікує помилкові результати. Оцінка найсучасніших агентів LLM на tau-bench дає результати на рівнях осі, відповідності та бенчмарку. На рівні осі виміри фіксують ненадлишкові режими відмов: корисність маскує прогалини в надійності, швидкість не означає точність, а стислість не передбачає дотримання намірів. На рівні процедурної відповідності 27-78% успіхів, зафіксованих бенчмарком, є помилковими успіхами, що приховують порушення взаємодії та цілісності. Крім того, відсіювання суттєво зменшує показник Pass^4 та впливає на рейтинги моделей. Аналіз випадків помилкових успіхів виявляє відмінні сигнатури відмов для кожної моделі: GPT-5 поширює помилки по вимірах політики, виконання та наміру; Kimi-K2-Thinking концентрує 78% порушень у вірності та відповідності політики; а Mistral-Large-3 домінують відмови у вірності. На рівні бенчмарку наш аналіз виявляє структурні недоліки в дизайні бенчмарку, включаючи прогалини в обсязі завдань, суперечливі сигнали винагороди та артефакти симулятора, які призводять до випадкових успіхів.