DeepResearchEval: Автоматизована платформа для побудови глибоких дослідницьких завдань та агентної оцінки
Автори: Yibo Wang, Lei Wang, Yue Deng, Keming Wu, Yao Xiao, Huanjin Yao, Liwei Kang, Hai Ye, Yongcheng Jing, Lidong Bing
Опубліковано: 2026-01-14
Переглянути на arXiv →Анотація
DeepResearchEval — це автоматизована платформа для побудови глибоких дослідницьких завдань та оцінки агентів ШІ. Вона вирішує проблеми оцінки багатоетапних веб-досліджень та синтезу інформації з різних джерел шляхом створення реалістичних завдань та активної перевірки фактів, забезпечуючи кращі еталони для оцінки ШІ, орієнтованого на дослідження.