AppleVLM: Наскрізне автономне водіння з розширеним сприйняттям та покращеними плануванням моделями зору-мови
Автори: Yuxuan Han, Kunyuan Wu, Qianyi Shao, Renxiang Xiao, Zilu Wang, Cansen Jiang, Yi Xiao, Liang Hu, Yunjiang Lou
Опубліковано: 2026-02-04
Переглянути на arXiv →Анотація
Наскрізне автономне водіння стало перспективною парадигмою. Ми пропонуємо AppleVLM, вдосконалену модель VLM з розширеним сприйняттям та покращеним плануванням для надійного наскрізного водіння. AppleVLM впроваджує новий візуальний кодувальник та кодувальник стратегії планування для покращення сприйняття та прийняття рішень. Візуальний кодувальник об'єднує просторово-часову інформацію з багатовидових зображень за допомогою деформованого трансформера, підвищуючи надійність. Спеціальна модальність планування кодує явну просторову інформацію з вигляду "з висоти пташиного польоту", зменшуючи мовні упередження. Ми розгортаємо AppleVLM на платформі AGV, успішно демонструючи реальне наскрізне автономне водіння у складних зовнішніх умовах.