Масштабування верифікації може бути ефективнішим, ніж масштабування навчання політики для узгодження зору, мови та дії

Автори: Jacky Kwok, Xilun Zhang, Mengdi Xu, Yuejiang Liu, Azalia Mirhoseini, Chelsea Finn, Marco Pavone

Опубліковано: 2026-02-13

Переглянути на arXiv →
#cs.AI

Анотація

Мета створення роботів загального призначення залежить від їхньої здатності розуміти та виконувати інструкції природною мовою, але моделі «зір-мова-дія» (VLA) часто неправильно узгоджують дії з інструкціями. У цій статті досліджується перевірка під час тестування, щоб зменшити цей «розрив між наміром і дією». Показано, що спільне масштабування перефразованих інструкцій та згенерованих дій значно збільшує різноманітність зразків під час тестування, що призводить до більш ефективного відновлення правильних дій. Запровадивши CoVer, контрастний верифікатор для узгодження VLA, фреймворк демонструє плавне масштабування з обчислювальними ресурсами та даними. Порівняно з масштабуванням попереднього навчання політики, CoVer досягає значних переваг у розподілі (22%) та поза розподілом (13%) на бенчмарку SIMPLER, з подальшим покращенням на 45% у реальних експериментах.