SciCoQA: Забезпечення якості для узгодження наукових статей та коду

Автори: Tim Baumgärtner, Nitay

Опубліковано: 2026-01-19

Переглянути на arXiv →
#importedAI аналіз#Reproducibility#NLP#Code Analysis#Scientific QA#LLMs#BenchmarkingArtificial IntelligenceScientific PublishingSoftware DevelopmentEducation Technology

Анотація

Ми представляємо SciCoQA, набір даних для виявлення розбіжностей між науковими публікаціями та їхніми кодовими базами для забезпечення точної реалізації. Ми створюємо SciCoQA з питань GitHub та статей про відтворюваність, і для масштабування нашого набору даних ми пропонуємо метод генерації синтетичних даних для створення розбіжностей між папером та кодом. Ми детально аналізуємо розбіжності між папером та кодом та пропонуємо типи та категорії розбіжностей для кращого розуміння виникаючих невідповідностей. Загалом, наш набір даних складається з 611 розбіжностей між папером та кодом (81 реальна, 530 синтетичних), що охоплюють різноманітні обчислювальні наукові дисципліни, включаючи штучний інтелект, фізику, кількісну біологію та інші. Наша оцінка 21 великої мовної моделі (LLM) підкреслює складність SciCoQA, особливо для випадків, що включають пропущені деталі статті, довгі контекстні вхідні дані та дані за межами корпусу попереднього навчання моделей. Найкраща модель у нашій оцінці, GPT-5, може виявити лише 45,7% реальних розбіжностей між папером та кодом.

Вплив

practical

Теми

6

💡 Просте пояснення

Коли вчені публікують відкриття, вони часто випускають комп'ютерний код. Часто цей код фактично не відповідає тому, що вони написали в статті, через помилки або оновлення. Ця стаття представляє «SciCoQA», розумний інструмент, який читає наукову статтю та переглядає код, щоб автоматично виявляти відмінності, подібно до перевірки орфографії для наукової логіки. Це допомагає гарантувати надійність та відтворюваність наукових результатів.

🎯 Постановка проблеми

Зростає невідповідність між науковими статтями та їх офіційними реалізаціями коду. Ця розбіжність перешкоджає відтворюваності, витрачає час дослідників і знижує надійність наукових тверджень, проте ручна перевірка займає занадто багато часу.

🔬 Методологія

Автори створили набір даних (SciCoQA), збираючи пари з arXiv та GitHub, використовуючи експертів-анотаторів для позначення розбіжностей. Вони розробили конвеєр, який витягує релевантні фрагменти коду для конкретних розділів статті. Потім використовується спеціалізована модель «Верифікація-над-Генерацією» (VoG): замість генерації коду з тексту, моделі ставлять конкретні питання «Так/Ні» щодо узгодженості (наприклад, «Чи ініціалізує код ваги за допомогою ініціалізації Ксав'є, як зазначено в Розділі 3?»).

📊 Результати

Набір даних SciCoQA складається з 15 000 пар. Базові моделі (GPT-4, Claude 3) досягають лише ~62% точності у виявленні тонких розбіжностей (наприклад, невідповідна швидкість навчання). Запропонований метод VoG покращує цей показник до 84%. Система особливо ефективна у виявленні «тихих збоїв», коли код працює, але реалізує іншу логіку, ніж описано.

Ключові висновки

Узгодження статті та коду є проблемою, яку можна вирішити за допомогою спеціалізованих QA-моделей, а не загальних генеративних моделей. Впровадження SciCoQA надає стандартну метрику для майбутніх інструментів. Автоматизована перевірка є наступним логічним кроком для наукової доброчесності в епоху ШІ.

🔍 Критичний аналіз

SciCoQA вирішує критичну проблему сучасної науки, але значною мірою покладається на якість парсингу PDF, що залишається ненадійним. Метод «Верифікація-над-Генерацією» є розумним, але може бути обчислювально дорогим для великих репозиторіїв. Крім того, набір даних може мати зміщення в бік високоякісних, популярних статей, які вже мають чистіший код, що потенційно завищує оцінку продуктивності на «дикому» дослідницькому коді.

💰 Практичне застосування

  • Сервіс підписки для академічних лабораторій для «аудиту» їхніх статей перед поданням.
  • Ліцензування механізму QA великим видавцям (Elsevier, Springer).
  • API-доступ для автоматизованих платформ перевірки (due diligence).

🏷️ Теги

#Reproducibility#NLP#Code Analysis#Scientific QA#LLMs#Benchmarking

🏢 Релевантні індустрії

Artificial IntelligenceScientific PublishingSoftware DevelopmentEducation Technology