BagelVLA: Покращення довгострокової маніпуляції через чергування генерації зору, мови та дії

Автори: Yucheng Hu, Jianke Zhang, Yuanfei Luo, Yanjiang Guo, Xiaoyu Chen, Xinshu Sun, Kun Feng, Qingzhou Lu, Sheng Chen, Yangang Zhang, Wei Li, Jianyu Chen

Опубліковано: 2026-02-10

Переглянути на arXiv →
#cs.AI

Анотація

Забезпечення втілених агентів здатністю розмірковувати над завданнями, передбачати фізичні результати та генерувати точні дії є важливим для маніпуляцій загального призначення. BagelVLA — це уніфікована модель, яка об'єднує лінгвістичне планування, візуальне прогнозування та генерацію дій в єдиній структурі для покращення довгострокової маніпуляції. Ініціалізована з попередньо навченої уніфікованої моделі розуміння та генерації, BagelVLA інтегрує текстові міркування та візуальне прогнозування безпосередньо в цикл виконання дій. Вона вводить Residual Flow Guidance (RFG) для ефективного зв'язку модальностей, використовуючи одноступеневе шумозаглушення для прогнозування візуальних ознак та мінімальної затримки. Широкі експерименти демонструють, що BagelVLA значно перевершує базові показники на симульованих та реальних бенчмарках, особливо в завданнях, що вимагають багатоетапних міркувань.

BagelVLA: Покращення довгострокової маніпуляції через чергування генерації зору, мови та дії | ArXiv Intelligence