QuantiPhy: Кількісний еталон для оцінки здатності візуально-мовних моделей до фізичного мислення

Автори: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli

Опубліковано: 2025-12-23

Переглянути на arXiv →
#cs.AI

Анотація

Візуально-мовні моделі (VLM) продемонстрували значний прогрес, але їхня здатність міркувати про фізичний світ, що є критично важливим для реальних застосувань, таких як робототехніка, залишається недостатньо дослідженою. Ця стаття представляє QuantiPhy, кількісний еталон, розроблений для оцінки можливостей фізичного мислення VLM. QuantiPhy оцінює, наскільки добре VLM розуміють та передбачають результати фізичних взаємодій, таких як стабільність об'єкта, рух та зіткнення, на основі візуального входу. Еталон забезпечує стандартизований метод для вимірювання прогресу в цій критичній галузі, сприяючи створенню більш надійних та інтелектуальних втілених систем штучного інтелекту, які можуть ефективно функціонувати в складних фізичних середовищах.

QuantiPhy: Кількісний еталон для оцінки здатності візуально-мовних моделей до фізичного мислення | ArXiv Intelligence