RL-Struct: Легка структура навчання з підкріпленням для надійного структурованого виводу в великих мовних моделях.
Автори: Ruike Hu, Shulei Wu
Опубліковано: 2025-12-23
Переглянути на arXiv →Анотація
Ця стаття представляє RL-Struct, легку структуру навчання з підкріпленням, розроблену для підвищення надійності структурованого виводу, генерованого великими мовними моделями. Забезпечуючи більш послідовні та точні структуровані дані, ця структура має значні наслідки для застосувань, що вимагають точного форматування даних та логічної узгодженості, таких як генерація коду та вилучення фактів.