Навчання з підкріпленням через самодистиляцію

Автори: Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause

Опубліковано: 2026-01-28

Переглянути на arXiv →
#cs.AI

Анотація

Це дослідження представляє оптимізацію політики за допомогою самодистиляції (SDPO), алгоритм навчання з підкріпленням за стратегією, розроблений для значного покращення продуктивності великих мовних моделей (LLM) шляхом ефективного використання багатого, токенізованого зворотного зв'язку з навколишнього середовища. На відміну від традиційних методів, що покладаються на розріджені скалярні винагороди, SDPO перетворює цей детальний зворотний зв'язок на щільний навчальний сигнал, дозволяючи LLM навчатися на власних пояснених помилках без потреби у зовнішній моделі-вчителю. Цей інноваційний підхід суттєво підвищує ефективність вибірки та точність у складних завданнях міркування та кодування, прискорюючи виявлення у важких завданнях з бінарною винагородою з меншою кількістю спроб та обіцяючи більш ефективне навчання LLM.