Багатогранулярне відсікання вузлів для виявлення схем

Автори: Muhammad Umair Haider, Hammad Rizwan, Hassan Sajjad, A.B. Siddique

Опубліковано: 2025-12-11

Переглянути на arXiv →
#cs.AI

Анотація

Виявлення схем має на меті ідентифікувати мінімальні підмережі, які відповідають за конкретну поведінку у великих мовних моделях (LLM). Існуючі підходи переважно покладаються на ітеративне відсікання ребер, що є обчислювально дорогим і обмеженим грубозернистими одиницями, такими як голови уваги або блоки MLP, ігноруючи тонші структури, такі як окремі нейрони. Ми пропонуємо фреймворк відсікання на рівні вузлів для виявлення схем, який вирішує проблеми масштабованості та гранулярності. Наш метод вводить навчальні маски на кількох рівнях гранулярності, від цілих блоків до окремих нейронів, у межах єдиної мети оптимізації. Штрафи за розрідженість, специфічні для гранулярності, керують процесом відсікання, дозволяючи повне стиснення за один прогін тонкого налаштування. Емпірично наш підхід ідентифікує схеми, які є меншими за вузлами, ніж ті, що були виявлені попередніми методами; крім того, ми демонструємо, що багато нейронів, які вважаються важливими грубими методами, насправді нерелевантні, зберігаючи при цьому продуктивність завдання. Крім того, наш метод має значно менший об'єм пам'яті, у 5-10 разів, оскільки він не вимагає зберігання проміжних активацій у пам'яті для роботи.

Багатогранулярне відсікання вузлів для виявлення схем | ArXiv Intelligence