Auto-BenchmarkCard: Автоматизований синтез документації бенчмарків
Автори: Aris Hofmann, Inge Vejsbjerg, Jiatong Shi, Junwon Lee
Опубліковано: 2025-12-10
Переглянути на arXiv →Анотація
Auto-BenchmarkCard – це робочий процес, розроблений для генерації перевірених описів бенчмарків штучного інтелекту. Він вирішує поширені проблеми неповної або суперечливої документації бенчмарків, поєднуючи багатоагентне вилучення даних з різних джерел (наприклад, Hugging Face, Unitxt, академічні статті) з синтезом, керованим LLM. Фаза перевірки забезпечує точність фактів, сприяючи прозорості, порівнянності та повторному використанню у звітності щодо бенчмарків ШІ, що має вирішальне значення для дослідників і практиків при оцінці моделей ШІ.