SAM3-LiteText: Анатомічне дослідження текстового кодувальника SAM3 для ефективної сегментації зору-мови

Автори: Chengxi Zeng, Yuxuan Jiang, Ge Gao, Shuai Wang, Duolikun Danier, Bin Zhu, Stevan Rudinac, David Bull, Fan Zhang

Опубліковано: 2026-02-13

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття проводить поглиблене анатомічне дослідження текстового кодувальника SAM3, критичного компонента для моделей сегментації зору-мови, зосереджуючись на виявленні архітектурних вузьких місць та пропозиції оптимізацій для ефективності. Ми аналізуємо його внесок у багатомодальне злиття ознак та досліджуємо методи досягнення легкої, але ефективної сегментації. Наш запропонований SAM3-LiteText демонструє значні покращення обчислювальної ефективності без суттєвої втрати точності сегментації, що робить його придатним для розгортання в умовах обмежених ресурсів та застосуваннях у реальному часі, що вимагають надійного розуміння зору-мови.

SAM3-LiteText: Анатомічне дослідження текстового кодувальника SAM3 для ефективної сегментації зору-мови | ArXiv Intelligence