PixelGen: Піксельна дифузія перевершує латентну дифузію за допомогою перцептивної втрати

Автори: Zehong Ma, Ruihan Xu, Shiliang Zhang

Опубліковано: 2026-02-03

Переглянути на arXiv →
#cs.AI

Анотація

PixelGen — це фреймворк дифузії в піксельному просторі, який використовує перцептивне керування за допомогою втрат на основі LPIPS та DINO для генерування високоякісних зображень без використання VAE або латентних представлень. Піксельна дифузія генерує зображення безпосередньо в піксельному просторі наскрізним способом, уникаючи артефактів та вузьких місць, що вводяться VAE у двоетапній латентній дифузії. Ми пропонуємо PixelGen, просту систему піксельної дифузії з перцептивним керуванням. Втрата LPIPS сприяє вивченню кращих локальних закономірностей, тоді як перцептивна втрата на основі DINO посилює глобальну семантику. Завдяки перцептивному керуванню PixelGen перевершує сильні базові моделі латентної дифузії. Вона досягає FID 5.11 на ImageNet-256 без керування без класифікатора, використовуючи лише 80 епох навчання, та демонструє сприятливу продуктивність масштабування для великомасштабної генерації тексту в зображення з оцінкою GenEval 0.79. PixelGen не потребує VAE, латентних представлень або допоміжних етапів, надаючи простішу, але потужнішу генеративну парадигму.