Адаптивний паралельний пошук по дереву Монте-Карло для ефективного масштабування обчислень під час тестування

Автори: Hongbeen Kim, Juhyun Lee, Sanghyeon Lee, Kwanghoon Choi, Jaehyuk Huh

Опубліковано: 2026-04-20

Переглянути на arXiv →
#cs.AIAI аналіз#Test-time Compute#Monte Carlo Tree Search#LLM Inference#Parallel Computing#Scaling Laws#ReasoningArtificial IntelligenceCloud Computing InfrastructureAutomated Software EngineeringLegal TechFinancial Auditing

Анотація

Ця стаття представляє адаптивний паралельний алгоритм пошуку по дереву Монте-Карло (MCTS), розроблений для досягнення ефективного масштабування обчислень під час тестування. Він вирішує обчислювальні проблеми розгортання складних систем прийняття рішень зі штучним інтелектом у реальних сценаріях, де ресурси можуть бути обмеженими або динамічними. Запропонований метод інтелектуально розподіляє обчислювальні зусилля, підвищуючи продуктивність та чутливість агентів штучного інтелекту в таких застосуваннях, як ігровий штучний інтелект, автономна навігація та стратегічне планування, роблячи передовий штучний інтелект більш доступним для практичного розгортання.

Вплив

transformative

Теми

6

💡 Просте пояснення

Коли ШІ-моделі намагаються вирішити дуже складні завдання, як-от математика чи програмування, надання їм більшого часу на 'обдумування' та вивчення різних рішень дуже допомагає. Однак цей процес 'обдумування' зазвичай є повільним і неефективно використовує комп'ютерні чипи (GPU). У цій роботі представлено розумну систему, яка діє як регулювальник, динамічно розподіляючи навантаження 'обдумування' між кількома комп'ютерними чипами, що робить ШІ набагато швидшим без втрати розумових здібностей.

🎯 Постановка проблеми

Масштабування обчислень на етапі висновку за допомогою алгоритмів пошуку, таких як пошук у дереві Монте-Карло (MCTS), різко підвищує здатність великих мовних моделей до міркування. Однак традиційні реалізації MCTS оцінюють вузли послідовно, що призводить до значних затримок та недовикористання високопаралельного обладнання (GPU/TPU). Існуючі статичні стратегії паралелізації (наприклад, тільки паралелізація листків або коренів) не здатні оптимально збалансувати компроміс між дослідженням і використанням, а також пропускну здатність пам'яті на різних етапах дерева пошуку.

🔬 Методологія

Методологія базується на адаптивному паралельному MCTS (AP-MCTS). Система використовує профайлер часу виконання для моніторингу використання пам'яті GPU та стану обчислень. Залежно від цих метрик та глибини дерева MCTS, головний планувальник динамічно перемикається між трьома стратегіями: паралелізація листків (паралельна генерація кількох кандидатів дій з одного стану), паралелізація дерев (призначення різних піддерев різним робочим вузлам) та паралелізація коренів (запуск кількох незалежних процесів MCTS та агрегація результатів). Впроваджено новий механізм спільного використання KV-кешу для мінімізації надлишковості пам'яті між паралельними гілками.

📊 Результати

Експерименти на бенчмарках GSM8K та MATH з використанням моделей Llama-3-8B та 70B показують, що AP-MCTS збільшує пропускну здатність висновку до 4,2 разів порівняно з послідовним MCTS. Крім того, він досягає продуктивності pass@1, що відповідає або трохи перевищує сильно масштабовані статичні еквіваленти MCTS, доводячи, що витрати на динамічне планування значно перекриваються приростом ефективності. Надмірність пам'яті знижена на 60% завдяки новій логіці спільного використання KV-кешу.

Ключові висновки

Щоб повністю реалізувати потенціал масштабування обчислень 'Системи 2' під час висновку для LLM, суворо необхідною є динамічна оптимізація з урахуванням апаратного забезпечення. Статичні алгоритми не здатні повною мірою використовувати архітектуру сучасних багато-графічних (multi-GPU) установок. AP-MCTS являє собою фундаментальний крок до готового до виробництва інтенсивного ШІ-висновку, перетворюючи міркування з академічного напрямку на масштабований корпоративний інструмент.

🔍 Критичний аналіз

У роботі наводяться переконливі аргументи на користь динамічної паралелізації, але замовчується значна інженерна складність підтримки синхронізованого глобального дерева між кількома розподіленими вузлами. Витрати на планування, хоч і компенсуються зростанням пропускної здатності у складних завданнях, можуть фактично знизити продуктивність для простіших запитів. Крім того, залежність від окремо навченої моделі-верифікатора обмежує продуктивність системи якістю цього верифікатора, що залишається великою відкритою проблемою у спільноті розробників LLM.

💰 Практичне застосування

  • Запуск керованого API для міркування ШІ, що тарифікується за 'секунди обчислень', а не виключно за токени.
  • Корпоративне ліцензування програмного забезпечення для оркестрації планування AP-MCTS для приватних хмарних розгортань.
  • Надання преміум-підписок на асистентів для IDE, що працюють на високопродуктивних бекендах AP-MCTS для розробки програмного забезпечення.

🏷️ Теги

#Test-time Compute#Monte Carlo Tree Search#LLM Inference#Parallel Computing#Scaling Laws#Reasoning

🏢 Релевантні індустрії

Artificial IntelligenceCloud Computing InfrastructureAutomated Software EngineeringLegal TechFinancial Auditing
Адаптивний паралельний пошук по дереву Монте-Карло для ефективного масштабування обчислень під час тестування | ArXiv Intelligence