Youtu-VL: Розкриття візуального потенціалу через уніфікований візуально-мовний нагляд

Автори: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li

Опубліковано: 2026-01-27

Переглянути на arXiv →
#cs.AI

Анотація

Дослідники Tencent представили Youtu-VL, фреймворк візуально-мовних моделей, що вирішує проблему втрати деталізованої візуальної інформації за допомогою парадигми оптимізації "зір як ціль", досягаючи конкурентної продуктивності на 75 бенчмарках та зменшених галюцинацій.

Youtu-VL: Розкриття візуального потенціалу через уніфікований візуально-мовний нагляд

Автори: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li

Опубліковано: 2026-01-27

Переглянути на arXiv →
#cs.AI

Анотація

Дослідники Tencent представили Youtu-VL, фреймворк візуально-мовних моделей, що вирішує проблему втрати деталізованої візуальної інформації за допомогою парадигми оптимізації "зір як ціль", досягаючи конкурентної продуктивності на 75 бенчмарках та зменшених галюцинацій.

FEEDBACK

Проекти

Немає проектів

Youtu-VL: Розкриття візуального потенціалу через уніфікований візуально-мовний нагляд | ArXiv Intelligence