Olaf-World: Орієнтування латентних дій для моделювання відеосвіту

Автори: Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou

Опубліковано: 2026-02-10

Переглянути на arXiv →
#cs.AI

Анотація

Масштабування керованих діями світових моделей ускладнюється дефіцитом міток дій. Хоча навчання латентних дій спрямоване на вилучення інтерфейсів керування з нерозмічених відео, навчені латентні змінні часто не переносяться між контекстами, заплутуючи специфічні для сцени підказки. Olaf-World представляє фреймворк для попереднього навчання відео-світових моделей, що залежать від дій, на основі великомасштабного пасивного відео. Він досягає контекстно-інваріантних і переносних латентних дій шляхом їх узгодження зі спостережуваними семантичними змінами за допомогою об'єктиву вирівнювання керування-ефекту на рівні послідовності (SeqΔ-REPA), що призводить до надійного перенесення дій без попереднього навчання та ефективної адаптації до нових інтерфейсів керування.

Olaf-World: Орієнтування латентних дій для моделювання відеосвіту | ArXiv Intelligence