EMMA: Ефективне мультимодальне розуміння, генерація та редагування за допомогою уніфікованої архітектури

Автори: Li Wei, Chen Jing, Wang Yong

Опубліковано: 2025-12-04

Переглянути на arXiv →
#cs.AI

Анотація

Дослідники Huawei Inc. розробили EMMA, уніфіковану мультимодальну архітектуру для розуміння, генерації та редагування, що використовує 32-кратне стиснення візуальних токенів та поканальне злиття ознак для підвищення ефективності. Модель досягла 79,6% середньої точності за 11 бенчмарками розуміння, 0,91 бала GenEval для генерації тексту в зображення та продемонструвала нові міжмовні можливості та здатність виконувати багатоетапні інструкції.

EMMA: Ефективне мультимодальне розуміння, генерація та редагування за допомогою уніфікованої архітектури

Автори: Li Wei, Chen Jing, Wang Yong

Опубліковано: 2025-12-04

Переглянути на arXiv →
#cs.AI

Анотація

Дослідники Huawei Inc. розробили EMMA, уніфіковану мультимодальну архітектуру для розуміння, генерації та редагування, що використовує 32-кратне стиснення візуальних токенів та поканальне злиття ознак для підвищення ефективності. Модель досягла 79,6% середньої точності за 11 бенчмарками розуміння, 0,91 бала GenEval для генерації тексту в зображення та продемонструвала нові міжмовні можливості та здатність виконувати багатоетапні інструкції.

FEEDBACK

Проекти

Немає проектів

EMMA: Ефективне мультимодальне розуміння, генерація та редагування за допомогою уніфікованої архітектури | ArXiv Intelligence