Надійна кількісна оцінка невизначеності для фактичної генерації великих мовних моделей
Автори: Yuhao Zhang, Zhongliang Yang, Linna Zhou
Опубліковано: 2026-01-05
Переглянути на arXiv →Анотація
Ця стаття розглядає критичне обмеження галюцинацій у великих мовних моделях (LLM), пропонуючи новий та надійний метод кількісної оцінки невизначеності (RU) для фактичної генерації. Вона створює набір "підступних питань" з вигаданими іменами для оцінки надійності LLM у реальних програмах, що вимагають критичного мислення. Дослідження підкреслює, що традиційні методи кількісної оцінки невизначеності є недостатніми при зіткненні з неканонічними або суперечливими стратегіями запитань, наголошуючи на необхідності більш надійних підходів для забезпечення достовірності та надійності вмісту, створеного штучним інтелектом.