Швидкий SAM2 із обрізанням токенів за допомогою тексту.
Автори: Avilasha Mandal, Chaoning Zhang, Fachrina Dewi Puspitasari, Xudong Wang, Jiaquan Zhang, Caiyan Qin, Guoqing Wang, Yang Yang, Heng Tao Shen
Опубліковано: 2025-12-24
Переглянути на arXiv →Анотація
Segment Anything Model 2 (SAM2), базова модель комп'ютерного зору, значно просунулася в сегментації відеооб'єктів за допомогою підказок, проте її практичне розгортання залишається обмеженим високою обчислювальною вартістю та витратами пам'яті на обробку щільних візуальних токенів протягом часу. У цій роботі ми представляємо фреймворк обрізання токенів, керований текстом, який підвищує ефективність виведення, вибірково зменшуючи щільність токенів перед тимчасовим поширенням, без зміни основної архітектури сегментації. Широкі експерименти на декількох складних еталонах сегментації відео демонструють, що обрізання токенів після кодера забезпечує практичний та ефективний шлях до ефективної, чутливої до підказок сегментації відео, досягаючи до 42,50% швидшого виведення та 37,41% меншого використання пам'яті GPU порівняно з необрізаним базовим SAM2, зберігаючи при цьому конкурентну продуктивність J та F. Ці результати підкреслюють потенціал раннього вибору токенів для покращення масштабованості систем сегментації відео на основі трансформерів для реального часу та ресурсно-обмежених застосувань.