Замінити, не розширювати: Зменшення надмірності у великих мовних моделях
Автори: Nicholas Clark, Ryan Bai, Tanu Mitra
Опубліковано: 2025-12-11
Переглянути на arXiv →Анотація
Авторегресивне декодування у великих мовних моделях (LLM) є за своєю суттю послідовним, створюючи вузьке місце затримки, яка лінійно масштабується з довжиною виводу. Хоча методи ``розкладання та заповнення'', такі як Skeleton-of-Thought, намагаються паралелізувати генерацію за допомогою зовнішньої оркестрації, вони страждають від дрейфу когерентності через відсутність крос-потокової комунікації. У цій роботі ми представляємо Parallel Decoder Transformer (PDT), параметрично ефективну архітектуру, яка вбудовує координаційні примітиви безпосередньо в процес виведення замороженої попередньо навченої моделі. Наші результати демонструють, що PDT досягає ефективної самокорекції, досягаючи 77.8% точності в прогнозуванні покриття та відновлюючи приблизну послідовну семантику без зміни ваг основного шару. Це встановлює PDT як масштабовану, ефективну альтернативу повному тонкому налаштуванню моделі для структурованої паралельної генерації.