Візуальна генерація розблоковує людиноподібне мислення через мультимодальні моделі світу

Автори: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long

Опубліковано: 2026-01-27

Переглянути на arXiv →

#cs.AI

Анотація

Дослідники представили фреймворк і бенчмарк для вивчення візуального моделювання світу в уніфікованих мультимодальних моделях (UMMs), демонструючи, що візуальна генерація значно покращує міркування щодо фізичних та просторових завдань.

Візуальна генерація розблоковує людиноподібне мислення через мультимодальні моделі світу

Автори: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long

Опубліковано: 2026-01-27

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів

Візуальна генерація розблоковує людиноподібне мислення через мультимодальні моделі світу | ArXiv Intelligence