EVATok: Токенізація відео адаптивної довжини для ефективної візуальної авторегресійної генерації
Автори: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng, Xihui Liu
Опубліковано: 2026-03-13
Переглянути на arXiv →Анотація
Ця стаття пропонує EVATok, новий метод токенізації відео адаптивної довжини, розроблений для ефективної візуальної авторегресійної генерації. Він спрямований на підвищення ефективності моделей генерації відео шляхом динамічного регулювання довжини токенів, що призводить до кращої продуктивності та зменшення обчислювальних витрат, що особливо корисно для високоякісного синтезу та редагування відео. Ця робота була прийнята CVPR 2026.