Покращення навчання політики за допомогою моделі світ-дія (World-Action Model)
Автори: Zichang Wang, Xiaochen Li, Shagun Singh, Xiang Li, Chuang Gan, Joshua B. Tenenbaum, S. M. Ali Eslami
Опубліковано: 2026-03-31
Переглянути на arXiv →Анотація
Ця стаття представляє модель World-Action (WAM) — регульовану діями світову модель, яка одночасно аналізує майбутні візуальні спостереження та дії, що спричиняють переходи станів. WAM інтегрує мету зворотної динаміки в DreamerV2 для прогнозування дій на основі прихованих переходів станів, заохочуючи представлення захоплювати релевантну до дій структуру. Вона оцінюється на восьми маніпуляційних завданнях з бенчмарку CALVIN, демонструючи покращений успіх клонування поведінки та точного налаштування PPO зі значно меншою кількістю кроків навчання порівняно з базовими моделями.