PSPA-Bench: Персоналізований бенчмарк для агентів графічного інтерфейсу смартфона
Автори: Hongyi Nie
Опубліковано: 2026-03-31
Переглянути на arXiv →Анотація
Використання смартфонів у реальному світі є високоперсоналізованим, що вимагає від агентів надання індивідуальної допомоги. Для вирішення цієї проблеми представлено PSPA-Bench як бенчмарк для оцінки персоналізації агентів графічного інтерфейсу смартфона. Він містить понад 12 855 персоналізованих інструкцій для 10 щоденних сценаріїв та 22 мобільних додатків, а також оцінку процесу з урахуванням структури. Бенчмарк показує, що поточні методи погано працюють у персоналізованих налаштуваннях та вказує напрямки для покращення: моделі, орієнтовані на міркування, базове сприйняття та рефлексію/довгострокову пам'ять.