Український переклад недоступний через обмеження інструменту.
Автори: Sarim Chaudhry
Опубліковано: 2026-02-18
Переглянути на arXiv →Анотація
Український переклад недоступний через обмеження інструменту.
Вплив
transformative
Теми
5
💡 Просте пояснення
Уявіть, що ви намагаєтеся скласти пазл, але деякі шматочки розмиті. Замість того, щоб вгадувати, ви зупиняєтеся, щоб перемалювати та зробити чіткішими ці шматочки, поки вони ідеально не підійдуть. Цей ШІ робить те саме: він уточнює 'ідеї' або правила, необхідні для вирішення проблеми, перш ніж намагатися її вирішити, що призводить до набагато розумніших відповідей.
🎯 Постановка проблеми
LLM часто зазнають невдачі в композиційному міркуванні (вирішення A, щоб отримати B, щоб отримати C), оскільки вони покладаються на статичні визначення навчальних даних, які можуть не відповідати конкретним нюансам складної, нової проблеми.
🔬 Методологія
Автори пропонують ітеративний конвеєр, де конкретні терміни або логічні кроки в підказці визначаються як 'концепції'. Потім ці концепції піддаються еволюційному циклу: 'Мутація' (переписування визначення), 'Кросовер' (поєднання визначень) та 'Відбір' (збереження того, що дає найбільш послідовний слід міркування). Цей уточнений контекст потім використовується для остаточної дедукції.
📊 Результати
RCE досяг 15% покращення порівняно з Chain-of-Thought у тесті ARC та вирішив на 12% більше задач у GSM8K, правильно еволюціонуючи математичні визначення перед застосуванням. Він продемонстрував високу стійкість до 'питань з підступом'.
✨ Ключові висновки
Міркування — це не просто ланцюжок кроків, а правильне визначення семантичних одиниць цих кроків. Динамічне навчання під час інференсу (через еволюцію) є потужною парадигмою, що долає розрив між статичними вагами та новими проблемами.
🔍 Критичний аналіз
RCE представляє значний концептуальний стрибок, поєднуючи еволюційні алгоритми з інженерією підказок. Однак його практичність суттєво обмежена вартістю токенів та затримкою. Він добре вирішує 'складні' проблеми, але є надмірним для 90% випадків використання. Залежність від здатності моделі до самокритики без зовнішніх інструментів є слабким місцем.
💰 Практичне застосування
- Преміум-рівень API для 'Високоточного міркування'.
- Корпоративний плагін для аналізу брудних, неструктурованих внутрішніх даних.
- Ліцензування набору даних еволюції для донавчання менших моделей.