Переосмислення оцінки математичних міркувань: надійна рамка LLM-як-суддя поза межами символічної жорсткості.

Автори: Erez Yosef, Oron Anschel, Shunit Haviv Hakimi, Asaf Gendler, Adam Botach, Nimrod Berman, Igor Kviatkovsky

Опубліковано: 2026-04-27

#cs.AI

Анотація

Це дослідження пропонує нову систему для оцінки математичних міркувань у великих мовних моделях (LLM), яка виходить за рамки жорстких символічних перевірок, запроваджуючи парадигму LLM-як-суддя для надійної оцінки.

Переосмислення оцінки математичних міркувань: надійна рамка LLM-як-суддя поза межами символічної жорсткості.

Автори: Erez Yosef, Oron Anschel, Shunit Haviv Hakimi, Asaf Gendler, Adam Botach, Nimrod Berman, Igor Kviatkovsky

Опубліковано: 2026-04-27

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів

Переосмислення оцінки математичних міркувань: надійна рамка LLM-як-суддя поза межами символічної жорсткості. | ArXiv Intelligence