ViT-5: Візіонні Трансформери для середини 2020-х років

Автори: Feng Wang, Sucheng Ren, Tiezheng Zhang, Predrag Neskovic, Anand Bhattad, Cihang Xie, Alan Yuille

Опубліковано: 2026-02-08

Переглянути на arXiv →
#cs.AI

Анотація

Ця робота систематично досліджує модернізацію архітектур Vision Transformer, використовуючи архітектурні досягнення останніх п'яти років. Зберігаючи канонічну структуру Attention-FFN, поелементне доопрацювання, що включає нормалізацію, функції активації, позиційне кодування, механізми гейтування та навчальні токени, формує нове покоління Vision Transformers, назване ViT-5. Широкі експерименти демонструють, що ViT-5 послідовно перевершує найсучасніші прості Vision Transformers у бенчмарках як розуміння, так і генерації. У класифікації ImageNet-1k, ViT-5-Base досягає 84,2% точності top-1, перевершуючи DeiT-III-Base. ViT-5 також служить потужнішою основою для генеративного моделювання, досягаючи 1,84 FID в дифузійній архітектурі SiT проти 2,06 з ванільною архітектурою ViT.

ViT-5: Візіонні Трансформери для середини 2020-х років | ArXiv Intelligence