Solver-in-the-Loop: бенчмарки на основі MDP для самокорекції та поведінкової раціональності в дослідженні операцій
Автори: Ruicheng Ao, David Simchi-Levi, Xinshang Wang
Опубліковано: 2026-01-21
Переглянути на arXiv →Анотація
Ця робота представляє два нові бенчмарки, ORDebug та ORBias, які інтегрують вирішувач у цикл оцінювання для моделей ШІ. ORDebug оцінює ітеративну самокорекцію при вирішенні неможливих моделей дослідження операцій, тоді як ORBias оцінює поведінкову раціональність у випадках нового постачальника. Цей підхід спрямований на покращення діагностичних можливостей та можливостей самовідновлення великих мовних моделей у практичних умовах оптимізації.