Залишковий потік — це все, що вам потрібно: Про надмірність кешу KV в інференції Transformer

Автори: Alex Chen, Benjamin Lee, Catherine Wang, David Kim, Emily Zhao

Опубліковано: 2026-03-20

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє новаторське відкриття щодо надмірності кешу KV (Key-Value) в інференції Transformer, припускаючи, що лише залишковий потік може бути достатнім для підтримки продуктивності. Це відкриття має глибокі наслідки для оптимізації ефективності, обсягу пам'яті та обчислювальної вартості великих мовних моделей, потенційно дозволяючи розгортати більші та складніші моделі на пристроях з обмеженими ресурсами та зменшуючи експлуатаційні витрати для ШІ-сервісів.

Залишковий потік — це все, що вам потрібно: Про надмірність кешу KV в інференції Transformer

Автори: Alex Chen, Benjamin Lee, Catherine Wang, David Kim, Emily Zhao

Опубліковано: 2026-03-20

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє новаторське відкриття щодо надмірності кешу KV (Key-Value) в інференції Transformer, припускаючи, що лише залишковий потік може бути достатнім для підтримки продуктивності. Це відкриття має глибокі наслідки для оптимізації ефективності, обсягу пам'яті та обчислювальної вартості великих мовних моделей, потенційно дозволяючи розгортати більші та складніші моделі на пристроях з обмеженими ресурсами та зменшуючи експлуатаційні витрати для ШІ-сервісів.

FEEDBACK

Проекти

Немає проектів

Залишковий потік — це все, що вам потрібно: Про надмірність кешу KV в інференції Transformer | ArXiv Intelligence