Навчання моделей навчати себе: Міркування на межі навченості

Автори: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe

Опубліковано: 2026-01-26

#cs.AI

Анотація

Ця стаття представляє SOAR, нову систему самовдосконалення, яка дозволяє великим мовним моделям (LLM) генерувати власні навчальні програми для математичних задач, які вони спочатку не можуть вирішити. Вона досягає значних покращень продуктивності (наприклад, збільшення pass@32 на 8,5% на fail@128-MATH), базуючи винагороди вчителя на вимірюваному прогресі учня, а не на крихких внутрішніх проксі. Ця система пропонує шлях до більш автономних систем ШІ, які можуть ідентифікувати та генерувати проміжні кроки, необхідні для вирішення все складніших проблем без потреби у великих обсягах даних, створених людиною.

Проекти

Немає проектів