BrowseComp-V^3: Візуальний, вертикальний та верифікований бенчмарк для мультимодальних агентів перегляду

Автори: Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui

Опубліковано: 2026-02-16

Переглянути на arXiv →

#cs.AI

Анотація

Мультимодальні великі мовні моделі (MLLM) перетворюються на автономних агентів, здатних до мультимодального веб-перегляду та глибокого пошуку. Існуючі бенчмарки недостатні за складністю завдань, доступністю доказів та деталізацією оцінки. Ця стаття представляє BrowseComp-V^3, новий бенчмарк з 300 складними питаннями в різних доменах, що підкреслює глибоке багатошарове, крос-модальне, багатоступінчасте міркування з публічно доступними доказами для відтворюваності. Окрім точності остаточної відповіді, він включає оцінку процесу, керовану підцілями та перевірену експертами. Експерименти показують, що навіть найсучасніші моделі досягають лише 36% точності, підкреслюючи значні вузькі місця в інтеграції мультимодальної інформації та детальному сприйнятті.

BrowseComp-V^3: Візуальний, вертикальний та верифікований бенчмарк для мультимодальних агентів перегляду

Автори: Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui

Опубліковано: 2026-02-16

Переглянути на arXiv →

#cs.AI

Анотація

Мультимодальні великі мовні моделі (MLLM) перетворюються на автономних агентів, здатних до мультимодального веб-перегляду та глибокого пошуку. Існуючі бенчмарки недостатні за складністю завдань, доступністю доказів та деталізацією оцінки. Ця стаття представляє BrowseComp-V^3, новий бенчмарк з 300 складними питаннями в різних доменах, що підкреслює глибоке багатошарове, крос-модальне, багатоступінчасте міркування з публічно доступними доказами для відтворюваності. Окрім точності остаточної відповіді, він включає оцінку процесу, керовану підцілями та перевірену експертами. Експерименти показують, що навіть найсучасніші моделі досягають лише 36% точності, підкреслюючи значні вузькі місця в інтеграції мультимодальної інформації та детальному сприйнятті.

Проекти

Немає проектів

BrowseComp-V^3: Візуальний, вертикальний та верифікований бенчмарк для мультимодальних агентів перегляду | ArXiv Intelligence