Olaf-World: Орієнтування латентних дій для моделювання відеосвіту
Автори: Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou
Опубліковано: 2026-02-10
Переглянути на arXiv →Анотація
Масштабування керованих діями світових моделей ускладнюється дефіцитом міток дій. Хоча навчання латентних дій спрямоване на вилучення інтерфейсів керування з нерозмічених відео, навчені латентні змінні часто не переносяться між контекстами, заплутуючи специфічні для сцени підказки. Olaf-World представляє фреймворк для попереднього навчання відео-світових моделей, що залежать від дій, на основі великомасштабного пасивного відео. Він досягає контекстно-інваріантних і переносних латентних дій шляхом їх узгодження зі спостережуваними семантичними змінами за допомогою об'єктиву вирівнювання керування-ефекту на рівні послідовності (SeqΔ-REPA), що призводить до надійного перенесення дій без попереднього навчання та ефективної адаптації до нових інтерфейсів керування.