Візуальна генерація розблоковує людиноподібне мислення через мультимодальні моделі світу
Автори: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
Опубліковано: 2026-01-27
Переглянути на arXiv →Анотація
Дослідники представили фреймворк і бенчмарк для вивчення візуального моделювання світу в уніфікованих мультимодальних моделях (UMMs), демонструючи, що візуальна генерація значно покращує міркування щодо фізичних та просторових завдань.