Auto-BenchmarkCard: Автоматизований синтез документації бенчмарків

Автори: Aris Hofmann, Inge Vejsbjerg, Jiatong Shi, Junwon Lee

Опубліковано: 2025-12-10

#cs.AI

Анотація

Auto-BenchmarkCard – це робочий процес, розроблений для генерації перевірених описів бенчмарків штучного інтелекту. Він вирішує поширені проблеми неповної або суперечливої документації бенчмарків, поєднуючи багатоагентне вилучення даних з різних джерел (наприклад, Hugging Face, Unitxt, академічні статті) з синтезом, керованим LLM. Фаза перевірки забезпечує точність фактів, сприяючи прозорості, порівнянності та повторному використанню у звітності щодо бенчмарків ШІ, що має вирішальне значення для дослідників і практиків при оцінці моделей ШІ.

Проекти

Немає проектів