Однокрокова генерація зображень без латентних змінних за допомогою потоків середніх пікселів

Автори: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He

Опубліковано: 2026-01-29

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє «потік середніх пікселів» (pMF), інноваційну генеративну модель, що забезпечує однокрокову генерацію зображень без латентних змінних. Відходячи від традиційних моделей, заснованих на дифузії/потоці, які використовують багатоступінчасту вибірку та латентні простори, pMF ретельно розділяє вихідний простір мережі від простору втрат. Це дозволяє безпосередньо генерувати зображення з шуму за одну оцінку. Модель демонструє вражаючу продуктивність на ImageNet, досягаючи високих показників FID як при роздільній здатності 256x256, так і 512x512, що є значним кроком до генерації високоякісних зображень з підвищеною ефективністю для різних застосувань, таких як створення контенту.