CitySeeker: Як моделі зорової мови досліджують втілену міську навігацію з неявними потребами людини?

Автори: Siqi Wang, Chao Liang, Yunfan Gao, Erxin Yu, Sen Li, Yushi Li, Jing Li, Haofen Wang

Опубліковано: 2025-12-19

#cs.AI

Анотація

CitySeeker досліджує, як моделі зорової мови (VLM) можуть ефективно виконувати втілену міську навігацію, одночасно неявно розуміючи та задовольняючи людські потреби. Ми пропонуємо рамки, що інтегрує візуальне сприйняття, розуміння мови та міркування здорового глузду, щоб дозволити VLM орієнтуватися у складних міських середовищах, інтерпретувати людські інструкції та приймати рішення, які відповідають уподобанням користувачів та безпеці. Це дослідження має значні наслідки для розробки інтелектуальних допоміжних навігаційних систем та автономних транспортних засобів.

Проекти

Немає проектів