Покращення навчання політики за допомогою моделі світ-дія (World-Action Model)

Автори: Zichang Wang, Xiaochen Li, Shagun Singh, Xiang Li, Chuang Gan, Joshua B. Tenenbaum, S. M. Ali Eslami

Опубліковано: 2026-03-31

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє модель World-Action (WAM) — регульовану діями світову модель, яка одночасно аналізує майбутні візуальні спостереження та дії, що спричиняють переходи станів. WAM інтегрує мету зворотної динаміки в DreamerV2 для прогнозування дій на основі прихованих переходів станів, заохочуючи представлення захоплювати релевантну до дій структуру. Вона оцінюється на восьми маніпуляційних завданнях з бенчмарку CALVIN, демонструючи покращений успіх клонування поведінки та точного налаштування PPO зі значно меншою кількістю кроків навчання порівняно з базовими моделями.

Покращення навчання політики за допомогою моделі світ-дія (World-Action Model)

Автори: Zichang Wang, Xiaochen Li, Shagun Singh, Xiang Li, Chuang Gan, Joshua B. Tenenbaum, S. M. Ali Eslami

Опубліковано: 2026-03-31

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє модель World-Action (WAM) — регульовану діями світову модель, яка одночасно аналізує майбутні візуальні спостереження та дії, що спричиняють переходи станів. WAM інтегрує мету зворотної динаміки в DreamerV2 для прогнозування дій на основі прихованих переходів станів, заохочуючи представлення захоплювати релевантну до дій структуру. Вона оцінюється на восьми маніпуляційних завданнях з бенчмарку CALVIN, демонструючи покращений успіх клонування поведінки та точного налаштування PPO зі значно меншою кількістю кроків навчання порівняно з базовими моделями.

FEEDBACK

Проекти

Немає проектів