Nemotron-Cascade: Масштабування каскадного навчання з підкріпленням для загальноцільових моделей міркування
Автори: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
Опубліковано: 2025-12-15
Переглянути на arXiv →Анотація
Ця стаття пропонує Nemotron-Cascade, фреймворк для розробки загальноцільових моделей міркування з використанням каскадного навчання з підкріпленням за доменами (Cascade RL). Він вирішує неоднорідність в інфраструктурі RL, організовуючи послідовне, доменне RL, досягаючи найсучаснішої продуктивності в бенчмарках конкурентного програмування, математики та розробки програмного забезпечення, а також дозволяючи моделям працювати як у режимі "інструкцій", так і в режимі "глибокого мислення".