RoboVIP: Багатовидова генерація відео з підказками візуальної ідентичності розширює маніпуляції роботів
Автори: Boyang Wang, Haoran Zhang, Shujie Zhang, Jinkun Hao, Mingda Jia, Qi Lv, Yucheng Mao, Zhaoyang Lyu, Jia Zeng, Xudong Xu, Jiangmiao Pang
Опубліковано: 2026-01-08
Переглянути на arXiv →Анотація
RoboVIP представляє багатовидову структуру генерації відео, яка розширює набори даних маніпуляцій роботів, створюючи різноманітні фони та сцени на столі за допомогою підказок візуальної ідентичності. Цей метод дозволяє найсучаснішим політикам роботів досягати покращених показників успішності завдань та розширеної узагальненості як у змодельованих, так і в реальних захаращених середовищах, просуваючи навчання та адаптацію роботів.