HumanX: До спритних і узагальнених навичок взаємодії людиноподібних роботів на основі людських відео

Автори: Wei-Yuan Huang, Ruohan Zhang, Hao-Tien Chiang, C. Karen Liu, Sergey Levine, Jiajun Wu

Опубліковано: 2026-02-02

Переглянути на arXiv →
#cs.AI

Анотація

Забезпечення людиноподібних роботів спритними та адаптивними інтерактивними завданнями вже давно є основною проблемою в робототехніці. Сучасні підходи обмежуються або нестачею реалістичних даних взаємодії, або необхідністю ретельного, специфічного для завдання проектування функцій винагороди, що обмежує їх масштабованість для різноманітних завдань. Щоб усунути цю прогалину, ми представляємо HumanX, повнофункціональну структуру, яка компілює людське відео в узагальнені, реальні навички взаємодії для людиноподібних роботів без спеціальних винагород. HumanX об'єднує два спільно розроблені компоненти: XGen, конвеєр генерації даних, який синтезує різноманітні та фізично правдоподібні дані взаємодії роботів з відео, підтримуючи масштабоване розширення даних; та XMimic, єдину структуру імітаційного навчання, яка вивчає узагальнені навички взаємодії. Оцінений у п'яти різних областях — баскетбол, футбол, бадмінтон, підбір вантажу та реактивний бій — HumanX успішно набуває 10 різних навичок і переносить їх без попереднього навчання на фізичний людиноподібний робот Unitree G1. Отримані можливості включають складні маневри, такі як кидки з обманом у стрибку без будь-якого зовнішнього сприйняття, а також інтерактивні завдання, такі як безперервні послідовності передачі між людиною та роботом протягом 10 послідовних циклів — отримані з однієї відеодемонстрації. Наші експерименти показують, що HumanX досягає більш ніж у 8 разів більшого успіху в узагальненні, ніж попередні методи, демонструючи масштабований і незалежний від завдання шлях до вивчення універсальних, реальних інтерактивних навичок робота.