DRIFT: Навчання на основі надмірного незадоволення користувачів у реальному світі навчання переваг

Автори: Not provided in snippet

Опубліковано: 2025-12-05

Переглянути на arXiv →
#cs.AIAI аналіз#RLHF#Implicit Feedback#LLM Alignment#Distributional RL#Natural Language Processing#User InteractionArtificial IntelligenceCustomer Support AutomationSearch EnginesData AnalyticsEnterprise Software

Анотація

Ця стаття представляє DRIFT (Dissatisfaction-Refined Iterative preFerence Training), новий підхід до навчання переваг у реальних розгортаннях великих мовних моделей. Він використовує численні неявні сигнали незадоволення користувачів, які є більш поширеними, ніж явні відгуки про задоволення, для покращення відповідності моделі.

Вплив

practical

Теми

6

💡 Просте пояснення

Коли ви спілкуєтеся зі штучним інтелектом і він дає погану відповідь, ви зазвичай перефразовуєте питання, щоб отримати кращу. Ця стаття створює спосіб, як ШІ може навчатися на цій звичці. Замість того, щоб люди вручну оцінювали відповіді (що дорого), система аналізує логи чатів. Якщо вона бачить, що вам довелося перефразувати питання, вона припускає, що перша відповідь була поганою, а відповідь на ваше друге питання — кращою. Потім вона використовує цей 'неявний' зворотний зв'язок, щоб навчити ШІ давати кращу відповідь з першого разу.

🎯 Постановка проблеми

Стандартне навчання з підкріпленням на основі відгуків людей (RLHF) покладається на явно розмічені дані про преференції (наприклад, 'Відповідь А краща за В'), які є статичними, дорогими та важко масштабуються. Однак у реальних умовах генеруються масиви нерозмічених даних взаємодії, де користувачі неявно сигналізують про незадоволення, уточнюючи свої промпти. Сучасні методи не можуть ефективно використовувати ці дані 'спроб і помилок' через шум та відсутність істинних міток.

🔬 Методологія

Автори пропонують ймовірнісний фреймворк, який інтерпретує послідовність (промпт, відповідь, уточнення) як сигнал відносної переваги. Вони визначають модель прихованої винагороди, яка оцінює ймовірність незадоволення користувача. Метод включає: 1) Збір історій, де користувачі уточнюють промпти. 2) Генерацію розподілу відповідей 'заднім числом' (те, що модель *мала б* сказати), використовуючи уточнені промпти. 3) Навчання моделі з використанням цільової функції навчання з підкріпленням (off-policy), яка максимізує ймовірність кращої відповіді (заднім числом) і мінімізує ймовірність оригінальної незадовільної відповіді, враховуючи зсув розподілу.

📊 Результати

Експериментальні результати демонструють, що DRIFT значно перевершує базові методи (такі як DPO, навчений на евристично виведених парах) у багатьох тестах. Метод успішно відновлює валідні сигнали преференцій з шумних історій уточнень. У контрольованих середовищах агенти DRIFT досягли вищих показників перемог порівняно зі стандартними моделями RLHF, доводячи, що неявні сигнали незадоволення в історіях розмов є багатим, невикористаним ресурсом для узгодження (alignment) моделей.

Ключові висновки

Неявний зворотний зв'язок (уточнення користувачів) може ефективно замінити або доповнити дорогу явну розмітку для навчання моделей. Ключем до використання цих даних є обробка зсуву розподілу між початковою поганою відповіддю та кінцевою хорошою відповіддю. DRIFT дозволяє створювати системи, що 'самовдосконалюються' виключно через взаємодію з користувачем, зменшуючи залежність від платних сервісів розмітки.

🔍 Критичний аналіз

Стаття вирішує значну проблему в життєвому циклі LLM: високу вартість та дефіцит якісних даних про преференції. Формалізуючи інтуїцію, що уточнення користувачів означають незадоволення, DRIFT пропонує теоретично обґрунтований метод використання величезних обсягів існуючих логів. Розподілений підхід до моделювання відповідей 'заднім числом' є розумним рішенням проблеми невідповідності політик (off-policy mismatch). Однак метод спирається на припущення, що уточнення в першу чергу викликані незадоволенням, а не дослідженням або помилкою користувача, що не завжди вірно. Крім того, обчислювальні витрати на генерацію та семплювання розподілів під час навчання можуть бути вищими, ніж у стандартного DPO.

💰 Практичне застосування

  • Сервіс автоналаштування для корпоративних чат-ботів, який автоматично покращує продуктивність на основі логів чатів.
  • Інструменти очищення даних, які витягують високоякісні набори даних преференцій з сирих логів взаємодії для ШІ-компаній.
  • Агенти підтримки клієнтів, що адаптуються в реальному часі та вивчають конкретні вподобання користувачів під час довгих сесій.
  • Консалтинг щодо зниження витрат на RLHF шляхом заміни людських анотаторів на пайплайни на базі DRIFT.

🏷️ Теги

#RLHF#Implicit Feedback#LLM Alignment#Distributional RL#Natural Language Processing#User Interaction

🏢 Релевантні індустрії

Artificial IntelligenceCustomer Support AutomationSearch EnginesData AnalyticsEnterprise Software
DRIFT: Навчання на основі надмірного незадоволення користувачів у реальному світі навчання переваг | ArXiv Intelligence