DynamicVLA: Модель «зір-мова-дія» для маніпуляцій динамічними об'єктами
Автори: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
Опубліковано: 2026-01-29
Переглянути на arXiv →Анотація
DynamicVLA — це новаторська платформа для маніпуляцій динамічними об'єктами, що вирішує проблеми, з якими стикаються моделі «зір-мова-дія» (VLA) у сценаріях, що вимагають швидкого сприйняття та безперервного контролю рухомих об'єктів. Вона включає компактну 0,4B модель VLA з конволюційним візуальним кодером для ефективного висновку, безперервний висновок для адаптації з низькою затримкою та потокову передачу дій із врахуванням латентного представлення для тимчасового вирівнювання. У статті також представлено бенчмарк Dynamic Object Manipulation (DOM) — новий набір даних для оцінки завдань динамічної маніпуляції. Ця платформа значно покращує швидкість реагування, сприйняття та узагальнення, пропонуючи уніфіковане рішення для надійних маніпуляцій динамічними об'єктами в робототехніці.