Навчання моделей навчати себе: Міркування на межі навченості

Автори: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe

Опубліковано: 2026-01-26

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє SOAR, нову систему самовдосконалення, яка дозволяє великим мовним моделям (LLM) генерувати власні навчальні програми для математичних задач, які вони спочатку не можуть вирішити. Вона досягає значних покращень продуктивності (наприклад, збільшення pass@32 на 8,5% на fail@128-MATH), базуючи винагороди вчителя на вимірюваному прогресі учня, а не на крихких внутрішніх проксі. Ця система пропонує шлях до більш автономних систем ШІ, які можуть ідентифікувати та генерувати проміжні кроки, необхідні для вирішення все складніших проблем без потреби у великих обсягах даних, створених людиною.

Навчання моделей навчати себе: Міркування на межі навченості

Автори: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe

Опубліковано: 2026-01-26

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє SOAR, нову систему самовдосконалення, яка дозволяє великим мовним моделям (LLM) генерувати власні навчальні програми для математичних задач, які вони спочатку не можуть вирішити. Вона досягає значних покращень продуктивності (наприклад, збільшення pass@32 на 8,5% на fail@128-MATH), базуючи винагороди вчителя на вимірюваному прогресі учня, а не на крихких внутрішніх проксі. Ця система пропонує шлях до більш автономних систем ШІ, які можуть ідентифікувати та генерувати проміжні кроки, необхідні для вирішення все складніших проблем без потреби у великих обсягах даних, створених людиною.

FEEDBACK

Проекти

Немає проектів

Навчання моделей навчати себе: Міркування на межі навченості | ArXiv Intelligence