Переосмислення оцінки математичних міркувань: надійна рамка LLM-як-суддя поза межами символічної жорсткості.
Автори: Erez Yosef, Oron Anschel, Shunit Haviv Hakimi, Asaf Gendler, Adam Botach, Nimrod Berman, Igor Kviatkovsky
Опубліковано: 2026-04-27
Переглянути на arXiv →#cs.AI
Анотація
Це дослідження пропонує нову систему для оцінки математичних міркувань у великих мовних моделях (LLM), яка виходить за рамки жорстких символічних перевірок, запроваджуючи парадигму LLM-як-суддя для надійної оцінки.