Самодистильований міркувач: Самодистиляція за стратегією для великих мовних моделей
Автори: Siyan Zhao, Zhihui Xie, Mengchen Liu, Xiangchen Song, Haoyang Li, Yuhui Li, Yizhou Wang
Опубліковано: 2026-01-26
Переглянути на arXiv →Анотація
Ця стаття представляє On-Policy Self-Distillation (OPSD), нову структуру, яка дозволяє єдиній великій мовній моделі (LLM) виступати як учителем, так і учнем для значного покращення її математичних міркувальних здібностей. OPSD використовує істинні рішення як привілейовану інформацію для стратегії вчителя, надаючи щільний пошаровий нагляд над токенами стратегії учня під час її власних розгортань. Цей підхід ефективно вирішує проблему невідповідності розподілу, властиву дистиляції поза стратегією, і долає обмеження розріджених винагород у навчанні з підкріпленням, що призводить до 4-8-кратного підвищення ефективності токенів та чудової продуктивності на складних математичних міркувальних бенчмарках.