AdaGradSelect: Обчислювально ефективний та пам'ятно-оптимізований метод тонкої настройки для великих мовних моделей
Автори: Yixuan Weng, Minjun Zhu, Qiujie Xie, Qiyao Sun, Zhen Lin, Sifan Liu, Yue Zhang
Опубліковано: 2025-12-17
Переглянути на arXiv →Анотація
Ця стаття представляє AdaGradSelect, новий метод тонкої настройки для великих мовних моделей (LLM), який пропонує значну обчислювальну ефективність та оптимізацію пам'яті. Він тренується приблизно на 12% швидше та використовує на 35% менше пам'яті GPU, зберігаючи продуктивність, близьку до повного тонкого налаштування, перевершуючи LoRA за певними показниками та надаючи більш ефективну та ресурсозберігаючу альтернативу традиційному тонкому налаштуванню.