Генеративний змагальний обґрунтувач: Покращення міркувань великих мовних моделей за допомогою змагального навчання з підкріпленням

Автори: Qihao Liu, Luoxin Ye, Wufei Ma, Yu-Cheng Chou, Alan Yuille

Опубліковано: 2025-12-19

Переглянути на arXiv →
#cs.AI

Анотація

Великі мовні моделі (LLM) з можливостями явного міркування відмінно справляються з математичними міркуваннями, але все ще допускають помилки в процесі, такі як неправильні обчислення, крихка логіка та поверхово правдоподібні, але недійсні кроки. Ми представляємо Генеративний змагальний обґрунтувач (GAR), нову архітектуру, яка покращує можливості міркування великих мовних моделей (LLM) за допомогою змагального навчання з підкріпленням. GAR складається з генератора LLM, який виробляє кроки міркування, і дискримінатора LLM, який критикує ці кроки, спрямовуючи генератор до більш надійних та логічних міркувань. Цей ітеративний змагальний процес дозволяє LLM самовдосконалювати свою логічну послідовність та навички вирішення проблем, що призводить до більш надійних та точних результатів у складних завданнях міркування.