MathNet: глобальний мультимодальний бенчмарк для математичного міркування та пошуку

Автори: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba

Опубліковано: 2026-04-21

Переглянути на arXiv →

#cs.AI

Анотація

Вирішення математичних задач залишається складним випробуванням для великих мовних та мультимодальних моделей, проте існуючі бенчмарки є невеликими, одномовними та обмеженими за обсягом. Ця стаття представляє MathNet, високоякісний, великомасштабний, мультимодальний та багатомовний набір даних математичних задач олімпіадного рівня з бенчмарком для оцінки математичного міркування в генеративних моделях та математичного пошуку в системах, що базуються на вбудовуванні. MathNet охоплює 47 країн, 17 мов та два десятиліття змагань, включаючи 30 676 задач, розроблених експертами, з рішеннями в різних областях. Він підтримує такі завдання, як вирішення задач, математично-орієнтований пошук та пошук із доповненою генерацією, показуючи, що сучасні моделі все ще стикаються з викликами, особливо в пошуку еквівалентних задач.

MathNet: глобальний мультимодальний бенчмарк для математичного міркування та пошуку

Автори: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba

Опубліковано: 2026-04-21

Переглянути на arXiv →

#cs.AI

Анотація

Вирішення математичних задач залишається складним випробуванням для великих мовних та мультимодальних моделей, проте існуючі бенчмарки є невеликими, одномовними та обмеженими за обсягом. Ця стаття представляє MathNet, високоякісний, великомасштабний, мультимодальний та багатомовний набір даних математичних задач олімпіадного рівня з бенчмарком для оцінки математичного міркування в генеративних моделях та математичного пошуку в системах, що базуються на вбудовуванні. MathNet охоплює 47 країн, 17 мов та два десятиліття змагань, включаючи 30 676 задач, розроблених експертами, з рішеннями в різних областях. Він підтримує такі завдання, як вирішення задач, математично-орієнтований пошук та пошук із доповненою генерацією, показуючи, що сучасні моделі все ще стикаються з викликами, особливо в пошуку еквівалентних задач.

Проекти

Немає проектів

MathNet: глобальний мультимодальний бенчмарк для математичного міркування та пошуку | ArXiv Intelligence