Безвинагородне вирівнювання для суперечливих цілей
Автори: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin
Опубліковано: 2026-02-03
Переглянути на arXiv →Анотація
Методи прямого вирівнювання все частіше використовуються для узгодження великих мовних моделей (LLM) з людськими вподобаннями. Однак багато реальних проблем вирівнювання включають декілька суперечливих цілей, де наївне агрегування вподобань може призвести до нестабільного навчання та поганих компромісів. Ми пропонуємо фреймворк безвинагородного вирівнювання для конфліктних цілей (RACO), який безпосередньо використовує дані попарних вподобань та вирішує конфлікти градієнтів за допомогою нового обмеженого варіанта градієнтного спуску, що уникає конфліктів. Ми надаємо гарантії збіжності до Парето-критичних точок, які враховують задані користувачем вагові коефіцієнти цілей, і далі показуємо, що обмеження може суворо покращити швидкість збіжності в налаштуванні з двома цілями.