TOGGLE: Стиснення великих мовних моделей для периферійних пристроїв за допомогою темпоральної логіки
Автори: Khurram Khalil, Khaza Anuarul Hoque
Опубліковано: 2025-12-19
Переглянути на arXiv →Анотація
Ми представляємо TOGGLE, нову архітектуру для стиснення великих мовних моделей (LLM), спеціально розроблену для ефективного розгортання на периферійних пристроях. TOGGLE використовує темпоральну логіку для керування процесом стиснення, забезпечуючи збереження критичних часових залежностей та можливостей міркування. Цей підхід дозволяє значно зменшити розмір моделі, зберігаючи високу продуктивність, роблячи LLM більш доступними та практичними для реальних периферійних додатків з обмеженими обчислювальними ресурсами.