EMMA: Ефективне мультимодальне розуміння, генерація та редагування за допомогою уніфікованої архітектури
Автори: Li Wei, Chen Jing, Wang Yong
Опубліковано: 2025-12-04
Переглянути на arXiv →Анотація
Дослідники Huawei Inc. розробили EMMA, уніфіковану мультимодальну архітектуру для розуміння, генерації та редагування, що використовує 32-кратне стиснення візуальних токенів та поканальне злиття ознак для підвищення ефективності. Модель досягла 79,6% середньої точності за 11 бенчмарками розуміння, 0,91 бала GenEval для генерації тексту в зображення та продемонструвала нові міжмовні можливості та здатність виконувати багатоетапні інструкції.