CUDA Agent: Масштабна агентна RL для генерації високопродуктивних ядер CUDA
Автори: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou
Опубліковано: 2026-02-27
Переглянути на arXiv →Анотація
Оптимізація ядер графічних процесорів (GPU) є фундаментальною для сучасного глибокого навчання, але залишається вузькоспеціалізованим завданням, що вимагає глибоких знань апаратного забезпечення. Незважаючи на високу продуктивність у загальному програмуванні, великі мовні моделі (LLM) залишаються неконкурентоспроможними порівняно з компіляторними системами, такими як torch.compile, для генерації ядер CUDA. Існуючі підходи до генерації коду CUDA або покладаються на безтренувальне уточнення, або донавчають моделі в рамках фіксованих багатоетапних циклів "виконання-зворотний зв'язок", але обидві парадигми не спроможні докорінно покращити внутрішню здатність моделі до оптимізації CUDA, що призводить до обмеженого зростання продуктивності. Ми представляємо CUDA Agent, масштабну агентну систему навчання з підкріпленням, яка розвиває експертизу в ядрах CUDA за допомогою трьох компонентів: масштабованого конвеєра синтезу даних, середовища розробки CUDA, доповненого навичками, з автоматизованою верифікацією та профілюванням для забезпечення надійних сигналів винагороди, а також алгоритмічних методів навчання з підкріпленням, що забезпечують стабільне навчання. CUDA Agent досягає найсучасніших результатів на KernelBench, забезпечуючи швидкість на 100%, 100% та 92% вищу, ніж torch.compile, на розділах KernelBench Level-1, Level-2 та Level-3, перевершуючи найпотужніші пропрієтарні моделі, такі як Claude Opus 4.5 та Gemini 3 Pro, приблизно на 40% у найскладнішому налаштуванні Level-3.