MedPI: Оцінка систем ШІ в медичних взаємодіях з пацієнтами
Автори: Diego Fajardo V., Oleksii Proniakin, Victoria-Elisabeth Gruber, Razvan Marinescu
Опубліковано: 2026-01-08
Переглянути на arXiv →Анотація
Ця стаття представляє MedPI, високорозмірний бенчмарк для оцінки великих мовних моделей (LLM) у розмовах між пацієнтами та клініцистами. На відміну від одноразових QA-бенчмарків, MedPI оцінює медичний діалог за 105 параметрами, що охоплюють медичний процес, безпеку лікування, результати та комунікацію, що є вкрай важливим для відповідального ШІ в охороні здоров'я.