Самодосконалення попереднього навчання: використання післянавчених моделей для кращого попереднього навчання моделей
Автори: Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu
Опубліковано: 2026-01-29
Переглянути на arXiv →Анотація
Фреймворк "Самодосконалення попереднього навчання" інтегрує цілі вирівнювання (безпека, фактичність, якість) безпосередньо в попереднє навчання великих мовних моделей (LLM), використовуючи потужну попередньо навчену модель як динамічний переписувач і суддю. Цей метод призводить до значних успіхів у узгодженості генерації та фактичності, підвищуючи надійність та достовірність великих мовних моделей для реального використання.