Робо-Дофамін: Моделювання винагороди за загальний процес для високоточної маніпуляції роботами

Автори: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

Опубліковано: 2025-12-29

Переглянути на arXiv →
#cs.AI

Анотація

Ця робота представляє Robo-Dopamine, фреймворк для високоточної маніпуляції роботами з використанням навчання з підкріпленням (RL). Він вводить Dopamine-Reward, нову модель винагороди за процес з багатовидовим та покроковим розумінням, а також Dopamine-RL, надійний фреймворк навчання політики з теоретично обґрунтованим формуванням винагороди, інваріантним до політики. Цей підхід ефективно навчається щільним сигналам винагороди, прискорює оптимізацію політики та уникає семантичних пасток, роблячи RL практичним для реальної робототехніки.

Робо-Дофамін: Моделювання винагороди за загальний процес для високоточної маніпуляції роботами

Автори: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

Опубліковано: 2025-12-29

Переглянути на arXiv →
#cs.AI

Анотація

Ця робота представляє Robo-Dopamine, фреймворк для високоточної маніпуляції роботами з використанням навчання з підкріпленням (RL). Він вводить Dopamine-Reward, нову модель винагороди за процес з багатовидовим та покроковим розумінням, а також Dopamine-RL, надійний фреймворк навчання політики з теоретично обґрунтованим формуванням винагороди, інваріантним до політики. Цей підхід ефективно навчається щільним сигналам винагороди, прискорює оптимізацію політики та уникає семантичних пасток, роблячи RL практичним для реальної робототехніки.

FEEDBACK

Проекти

Немає проектів