AdaGradSelect: Обчислювально ефективний та пам'ятно-оптимізований метод тонкої настройки для великих мовних моделей

Автори: Yixuan Weng, Minjun Zhu, Qiujie Xie, Qiyao Sun, Zhen Lin, Sifan Liu, Yue Zhang

Опубліковано: 2025-12-17

#cs.AI

Анотація

Ця стаття представляє AdaGradSelect, новий метод тонкої настройки для великих мовних моделей (LLM), який пропонує значну обчислювальну ефективність та оптимізацію пам'яті. Він тренується приблизно на 12% швидше та використовує на 35% менше пам'яті GPU, зберігаючи продуктивність, близьку до повного тонкого налаштування, перевершуючи LoRA за певними показниками та надаючи більш ефективну та ресурсозберігаючу альтернативу традиційному тонкому налаштуванню.

AdaGradSelect: Обчислювально ефективний та пам'ятно-оптимізований метод тонкої настройки для великих мовних моделей

Автори: Yixuan Weng, Minjun Zhu, Qiujie Xie, Qiyao Sun, Zhen Lin, Sifan Liu, Yue Zhang

Опубліковано: 2025-12-17

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів