Масштабоване підвищення клінічної достовірності еталонних тестів за участю лікарів

Автори: Junze Ye, Daniel Tawfik, Alex J. Goodell, Nikhil V. Kotha, Mark K. Buyyounouski, Mohsen Bayati

Опубліковано: 2025-12-22

Переглянути на arXiv →
#cs.AI

Анотація

Автоматизація розрахунків клінічних оцінок ризику може значно зменшити адміністративне навантаження на лікарів та покращити догляд за пацієнтами. Існуючі еталонні тести, такі як MedCalc-Bench, створені за допомогою екстракції на основі великих мовних моделей (LLM), ризикують увіковічнити історичні помилки моделі, особливо при використанні для винагород у навчанні з підкріпленням. Ця робота пропонує розглядати еталонні тести як "живі документи" з систематичними конвеєрами за участю лікарів. Вони використовують агентні верифікатори для аудиту та перемаркування MedCalc-Bench, застосовуючи автоматизоване сортування для зосередження уваги клініцистів на спірних випадках. Їхній аудит виявив значні розбіжності з медичною істиною. Доопрацювання моделі Qwen3-8B на виправлених мітках дало абсолютне покращення точності на 8,7%, демонструючи суттєвий вплив шуму в мітках. Ці висновки підкреслюють, що ретельне ведення еталонних тестів є передумовою справжнього узгодження моделі в критично важливих для безпеки сферах.