Прагматична базова модель VLA
Автори: Wei Wu, Fan Lu, Yunnan Wang
Опубліковано: 2026-01-26
Переглянути на arXiv →Анотація
LingBot-VLA – це базова модель зору-мови-дії, попередньо навчена на 20 000 годин реальних даних роботів з кількома втіленнями. Вона демонструє, що продуктивність моделі VLA масштабується зі збільшенням обсягу даних без насичення, досягаючи чудових показників успіху в 100-задачному бенчмарку реального світу на трьох робототехнічних платформах та покращуючи ефективність навчання. Це безпосередньо сприяє розвитку практичної робототехніки.