DynamicVLA: Модель «зір-мова-дія» для маніпуляцій динамічними об'єктами

Автори: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu

Опубліковано: 2026-01-29

#cs.AI

Анотація

DynamicVLA — це новаторська платформа для маніпуляцій динамічними об'єктами, що вирішує проблеми, з якими стикаються моделі «зір-мова-дія» (VLA) у сценаріях, що вимагають швидкого сприйняття та безперервного контролю рухомих об'єктів. Вона включає компактну 0,4B модель VLA з конволюційним візуальним кодером для ефективного висновку, безперервний висновок для адаптації з низькою затримкою та потокову передачу дій із врахуванням латентного представлення для тимчасового вирівнювання. У статті також представлено бенчмарк Dynamic Object Manipulation (DOM) — новий набір даних для оцінки завдань динамічної маніпуляції. Ця платформа значно покращує швидкість реагування, сприйняття та узагальнення, пропонуючи уніфіковане рішення для надійних маніпуляцій динамічними об'єктами в робототехніці.

Проекти

Немає проектів