RoboReward: Загальноцільові моделі винагороди на основі зору та мови для робототехніки
Автори: Tony Lee, Andrew Wagenmaker, Karl Pertsch, Kevin Black, Suraj Nair, Michael Ahn, Jian Lan, Sergey Levine, Chelsea Finn
Опубліковано: 2026-01-02
Переглянути на arXiv →Анотація
Ця стаття представляє RoboReward, набір загальноцільових моделей винагороди на основі зору та мови, а також новий бенчмарк RoboRewardBench, розроблений для застосувань у робототехніці. Модель RoboReward 8B досягла найсучаснішої середньої абсолютної похибки 0.665 на новому бенчмарку, перевершивши 22 передові зорово-мовні моделі. Це ефективно забезпечило покращення політики навчання роботів із підкріпленням у реальному світі, підкреслюючи її потенціал для розвитку автономних робототехнічних систем шляхом зменшення потреби у трудомісткому ручному маркуванні або крихких розроблених вручну цілях.
Вплив
transformative
Теми
6
💡 Просте пояснення
Навчання роботів зазвичай вимагає написання складного коду, щоб точно сказати їм, коли вони роблять роботу добре (надаючи їм 'винагороду'). Ця стаття, RoboReward, використовує розумний ШІ, який може 'бачити' і 'читати' (як GPT-4 з очима), щоб автоматично спостерігати за роботом і повідомляти йому, чи успішно він виконує завдання, описане простою мовою (наприклад, 'підніми червоне яблуко'). Це означає, що ми можемо навчати роботів новим трюкам, просто розмовляючи з ними, без необхідності залучати експертів-програмістів для написання нового коду винагороди для кожної дії.
🎯 Постановка проблеми
У навчанні з підкріпленням (RL) розробка функцій винагороди ('інженерія винагород') є складною, виснажливою та специфічною для кожного завдання. Розріджені винагороди (отримання балів лише в самому кінці) уповільнюють навчання, тоді як щільні, створені вручну винагороди схильні до помилок і вимагають глибоких експертних знань. Існуючі автоматизовані методи часто не можуть зрозуміти складні семантичні цілі або вимагають доступу до внутрішніх станів симулятора, недоступних у реальному світі.
🔬 Методологія
Автори пропонують візуально-мовну модель винагороди, навчену через двоетапний процес. По-перше, вони збирають масштабний набір даних траєкторій робота, анотованих мовними інструкціями та бінарними/скалярними мітками успіху. По-друге, вони донавчають попередньо навчену VLM (наприклад, LLaVA або загальний трансформер) видавати скалярну оцінку винагороди на основі кадрів відео та текстового запиту. Ця вивчена функція винагороди потім підключається до стандартного алгоритму навчання з підкріпленням (наприклад, Soft Actor-Critic), надаючи щільні сигнали зворотного зв'язку мережі політики, що дозволяє роботу оптимізувати свої дії на основі семантичного розуміння VLM.
📊 Результати
RoboReward досяг рівня успіху на 40% вищого, ніж базові методи CLIP-Reward, на наборі складних завдань маніпуляції в Meta-World. Він продемонстрував здатність направляти агентів на вирішення завдань за допомогою zero-shot мовних інструкцій (наприклад, 'відкрий шухляду'), де традиційне RL зазнавало невдачі без спеціального налаштування винагороди. Модель виявила стійкість до незначних візуальних відволікань, але мала труднощі з екстремальними оклюзіями. Якісний аналіз показав, що теплові карти винагороди сильно корелюють з людською оцінкою прогресу завдання.
✨ Ключові висновки
1. VLM можуть ефективно замінити ручні функції винагороди, забезпечуючи масштабоване навчання роботів. 2. Семантичне розуміння дозволяє формувати винагороди на основі намірів високого рівня, а не просто співставлення пікселів. 3. Цей підхід відкриває шлях для роботів, які можуть вчитися безпосередньо через взаємодію з людиною та демонстрацію без написання коду.
🔍 Критичний аналіз
RoboReward є значним кроком до загального навчання роботів завдяки ефективному використанню семантичних знань VLM. Його сила полягає в усуненні необхідності розробки винагород для конкретних завдань. Однак залежність від масивних, обчислювально дорогих моделей створює вузьке місце для управління в реальному часі (частота виводу). Крім того, природа сигналу винагороди як «чорної скриньки» викликає занепокоєння щодо безпеки: якщо VLM неправильно інтерпретує небезпечну ситуацію як «успіх» через візуальну схожість, наслідки у фізичному світі можуть бути серйозними. Робота потребує більшої уваги до оцінки невизначеності та обмежень безпеки.
💰 Практичне застосування
- Ліцензування моделі RoboReward виробникам промислових роботів (ABB, Kuka).
- Хмарний API для навчання роботів: оплата за годину навчання з використанням RoboReward.
- Розробка споживчого додатку 'Навчи свого робота' для майбутніх домашніх роботів.