PSPA-Bench: Персоналізований бенчмарк для агентів графічного інтерфейсу смартфона

Автори: Hongyi Nie

Опубліковано: 2026-03-31

Переглянути на arXiv →
#cs.AI

Анотація

Використання смартфонів у реальному світі є високоперсоналізованим, що вимагає від агентів надання індивідуальної допомоги. Для вирішення цієї проблеми представлено PSPA-Bench як бенчмарк для оцінки персоналізації агентів графічного інтерфейсу смартфона. Він містить понад 12 855 персоналізованих інструкцій для 10 щоденних сценаріїв та 22 мобільних додатків, а також оцінку процесу з урахуванням структури. Бенчмарк показує, що поточні методи погано працюють у персоналізованих налаштуваннях та вказує напрямки для покращення: моделі, орієнтовані на міркування, базове сприйняття та рефлексію/довгострокову пам'ять.

PSPA-Bench: Персоналізований бенчмарк для агентів графічного інтерфейсу смартфона

Автори: Hongyi Nie

Опубліковано: 2026-03-31

Переглянути на arXiv →
#cs.AI

Анотація

Використання смартфонів у реальному світі є високоперсоналізованим, що вимагає від агентів надання індивідуальної допомоги. Для вирішення цієї проблеми представлено PSPA-Bench як бенчмарк для оцінки персоналізації агентів графічного інтерфейсу смартфона. Він містить понад 12 855 персоналізованих інструкцій для 10 щоденних сценаріїв та 22 мобільних додатків, а також оцінку процесу з урахуванням структури. Бенчмарк показує, що поточні методи погано працюють у персоналізованих налаштуваннях та вказує напрямки для покращення: моделі, орієнтовані на міркування, базове сприйняття та рефлексію/довгострокову пам'ять.

FEEDBACK

Проекти

Немає проектів

PSPA-Bench: Персоналізований бенчмарк для агентів графічного інтерфейсу смартфона | ArXiv Intelligence