Nemotron-Cascade: Масштабування каскадного навчання з підкріпленням для загальноцільових моделей міркування

Автори: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

Опубліковано: 2025-12-15

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття пропонує Nemotron-Cascade, фреймворк для розробки загальноцільових моделей міркування з використанням каскадного навчання з підкріпленням за доменами (Cascade RL). Він вирішує неоднорідність в інфраструктурі RL, організовуючи послідовне, доменне RL, досягаючи найсучаснішої продуктивності в бенчмарках конкурентного програмування, математики та розробки програмного забезпечення, а також дозволяючи моделям працювати як у режимі "інструкцій", так і в режимі "глибокого мислення".

Nemotron-Cascade: Масштабування каскадного навчання з підкріпленням для загальноцільових моделей міркування

Автори: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

Опубліковано: 2025-12-15

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття пропонує Nemotron-Cascade, фреймворк для розробки загальноцільових моделей міркування з використанням каскадного навчання з підкріпленням за доменами (Cascade RL). Він вирішує неоднорідність в інфраструктурі RL, організовуючи послідовне, доменне RL, досягаючи найсучаснішої продуктивності в бенчмарках конкурентного програмування, математики та розробки програмного забезпечення, а також дозволяючи моделям працювати як у режимі "інструкцій", так і в режимі "глибокого мислення".

FEEDBACK

Проекти

Немає проектів