Залишковий потік — це все, що вам потрібно: Про надмірність кешу KV в інференції Transformer
Автори: Alex Chen, Benjamin Lee, Catherine Wang, David Kim, Emily Zhao
Опубліковано: 2026-03-20
Переглянути на arXiv →Анотація
Ця стаття представляє новаторське відкриття щодо надмірності кешу KV (Key-Value) в інференції Transformer, припускаючи, що лише залишковий потік може бути достатнім для підтримки продуктивності. Це відкриття має глибокі наслідки для оптимізації ефективності, обсягу пам'яті та обчислювальної вартості великих мовних моделей, потенційно дозволяючи розгортати більші та складніші моделі на пристроях з обмеженими ресурсами та зменшуючи експлуатаційні витрати для ШІ-сервісів.