Замінити, не розширювати: Зменшення надмірності у великих мовних моделях

Автори: Nicholas Clark, Ryan Bai, Tanu Mitra

Опубліковано: 2025-12-11

Переглянути на arXiv →
#cs.AI

Анотація

Авторегресивне декодування у великих мовних моделях (LLM) є за своєю суттю послідовним, створюючи вузьке місце затримки, яка лінійно масштабується з довжиною виводу. Хоча методи ``розкладання та заповнення'', такі як Skeleton-of-Thought, намагаються паралелізувати генерацію за допомогою зовнішньої оркестрації, вони страждають від дрейфу когерентності через відсутність крос-потокової комунікації. У цій роботі ми представляємо Parallel Decoder Transformer (PDT), параметрично ефективну архітектуру, яка вбудовує координаційні примітиви безпосередньо в процес виведення замороженої попередньо навченої моделі. Наші результати демонструють, що PDT досягає ефективної самокорекції, досягаючи 77.8% точності в прогнозуванні покриття та відновлюючи приблизну послідовну семантику без зміни ваг основного шару. Це встановлює PDT як масштабовану, ефективну альтернативу повному тонкому налаштуванню моделі для структурованої паралельної генерації.