Агентна психометрика: прогнозування продуктивності на рівні завдань у агентних бенчмарках кодування
Автори: Chris Ge, Daria Kryvosheieva, Daniel Fried
Опубліковано: 2026-04-23
Переглянути на arXiv →Анотація
Ця стаття досліджує агентну психометрику, зосереджуючись на прогнозуванні продуктивності на рівні завдань у агентних бенчмарках кодування. Вона заглиблюється в методології оцінки можливостей агентів штучного інтелекту для кодування поза простими показниками успішності/невдачі, маючи на меті зрозуміти їхні сильні та слабкі стороні, а також потенціал для розробки програмного забезпечення в реальному світі. Розробляючи метрики та прогностичні моделі для продуктивності агентів, дослідження сприяє створенню більш надійних та ефективних помічників штучного інтелекту для програмістів, підвищуючи загальну продуктивність та якість процесів розробки програмного забезпечення.