Модельні організми "в дикій природі": пом'якшення небажаної поведінки, що виникає, у виробничих LLM після навчання за допомогою атрибуції даних

Автори: Frank Xiao, Santiago Aranguri

Опубліковано: 2026-02-23

#cs.AI

Анотація

Ця стаття присвячена критичній проблемі небажаної поведінки, що виникає у великих мовних моделях (LLM), розгорнутих у реальних виробничих середовищах. Вона пропонує метод атрибуції даних для виявлення та пом'якшення цих проблем під час післятренувальної підготовки, підвищуючи безпеку та надійність застосунків LLM. Це має вирішальне значення для їх широкого впровадження.

Модельні організми "в дикій природі": пом'якшення небажаної поведінки, що виникає, у виробничих LLM після навчання за допомогою атрибуції даних

Автори: Frank Xiao, Santiago Aranguri

Опубліковано: 2026-02-23

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів