Модельні організми "в дикій природі": пом'якшення небажаної поведінки, що виникає, у виробничих LLM після навчання за допомогою атрибуції даних
Автори: Frank Xiao, Santiago Aranguri
Опубліковано: 2026-02-23
Переглянути на arXiv →Анотація
Ця стаття присвячена критичній проблемі небажаної поведінки, що виникає у великих мовних моделях (LLM), розгорнутих у реальних виробничих середовищах. Вона пропонує метод атрибуції даних для виявлення та пом'якшення цих проблем під час післятренувальної підготовки, підвищуючи безпеку та надійність застосунків LLM. Це має вирішальне значення для їх широкого впровадження.