HippoCamp: Бенчмаркінг контекстних агентів на персональних комп'ютерах
Автори: Zhe Yang, Shulin Tian, Kairui Hu, Shuai Liu, Hoang-Nhat Nguyen, Yichi Zhang, Zujin Guo, Mengying Yu, Zinan Zhang, Jingkang Yang, Chen Change Loy, Ziwei Liu
Опубліковано: 2026-04-02
Переглянути на arXiv →Анотація
Ми представляємо HippoCamp, новий бенчмарк, розроблений для оцінки можливостей агентів щодо керування мультимодальними файлами в орієнтованих на користувача середовищах. Наші всебічні експерименти виявляють значний розрив у продуктивності: навіть найсучасніші комерційні моделі досягають лише 48,3% точності у профілюванні користувачів, особливо важко справляючись із довгостроковим пошуком та крос-модальним міркуванням у щільних персональних файлових системах. Зрештою, HippoCamp виявляє критичні обмеження сучасних агентів у реалістичних, орієнтованих на користувача середовищах і забезпечує надійну основу для розробки персональних AI-асистентів наступного покоління.