Думай як науковець: керований фізикою агент LLM для відкриття рівнянь

Автори: Jianke Yang, Ohm Venkatachalam, Mohammad Kianezhad, Sharvaree Vadgama, Rose Yu

Опубліковано: 2026-02-13

Переглянути на arXiv →
#cs.AIAI аналіз#Symbolic Regression#LLM Agents#AI for Science#Physics-Informed ML#Equation DiscoveryScientific ResearchMaterial ScienceAutomotive EngineeringQuantitative Finance

Анотація

Пояснення спостережуваних явищ за допомогою символьних, інтерпретованих формул є фундаментальною метою науки. Ми представляємо KeplerAgent, агентну структуру, яка чітко дотримується наукового процесу міркувань, координуючи фізичні інструменти для вилучення проміжної структури та використовуючи ці результати для налаштування двигунів символьної регресії. У ряді тестів фізичних рівнянь KeplerAgent досягає значно вищої символьної точності та більшої стійкості до шумних даних, ніж як LLM, так і традиційні базові показники.

Вплив

practical

Теми

5

💡 Просте пояснення

Уявіть цифрового вченого, який дивіться на необроблені дані експерименту і знаходить математичну формулу, що їх пояснює. Замість того, щоб просто вгадувати навмання, цей ШІ використовує велику мовну модель (як ChatGPT), щоб «подумати» про те, як має виглядати формула, ґрунтуючись на назвах змінних і фізичних правилах (наприклад, перевіряючи відповідність одиниць виміру). Він перевіряє власні теорії, виправляє їх, якщо вони помилкові, і зрештою видає точне рівняння, яке вчені можуть зрозуміти та використати.

🎯 Постановка проблеми

Виведення інтерпретованих фізичних законів з даних є складним завданням. Традиційна символьна регресія (наприклад, генетичне програмування) бореться з вибуховим зростанням простору пошуку і часто створює фізично безглузді рівняння (наприклад, неправильні одиниці). Моделі глибокого навчання добре підходять для даних, але є «чорними скриньками», які не дають базового математичного закону. Стандартні LLM можуть писати математичні вирази, але їм бракує точних числових міркувань, і вони часто галюцинують недійсні зв'язки.

🔬 Методологія

Автори пропонують агентну структуру. 1. **Початкова гіпотеза**: LLM аналізує описи змінних та зразки даних, щоб запропонувати скелет рівняння. 2. **Фізична перевірка**: Детермінований блок коду перевіряє однорідність розмірностей (наприклад, не можна додавати метри до секунд). 3. **Підгонка**: Чисельні константи оптимізуються для відповідності даним. 4. **Критика та уточнення**: LLM переглядає метрики помилок і конкретні частини рівняння, які не спрацювали, а потім ітерує, щоб запропонувати кращу версію. Цей цикл триває до збіжності або тайм-ауту.

📊 Результати

Фізично керований LLM-агент досяг передового рівня відновлення на тесті Feynman, успішно ідентифікувавши 90%+ рівнянь, навіть за помірного шуму (до 10%). Він перевершив стандартне генетичне програмування (PySR) за ефективністю вибірки (вимагаючи менше точок даних), але був повільнішим за часом виконання через затримку висновків LLM. Важливо, що 100% вихідних рівнянь були розмірнісно узгодженими, на відміну від базових методів.

Ключові висновки

Поєднання семантичного міркування LLM із суворими обмеженнями фізики є потужною парадигмою. Цей підхід «Думай як вчений» виходить за рамки підгонки кривих до справжнього структурного відкриття. Головним вузьким місцем наразі є швидкість і вартість виводу LLM, але виграш у точності та інтерпретованості є значним для важливих наукових завдань.

🔍 Критичний аналіз

Стаття представляє переконливу конвергенцію LLM та наукових відкриттів. Хоча результати тесту Feynman вражають, залежність від попередньо навченої бази знань LLM створює ризик забруднення даних (модель могла запам'ятати рівняння Фейнмана). Аспект «фізичного керування» ефективно реалізований через обмеження, але обчислювальна вартість ітераційних викликів LLM робить його повільнішим, ніж спеціалізовані інструменти символьної регресії, такі як PySR, для простих задач. Його справжня цінність полягає у складних, семантично насичених задачах, де назви змінних містять підказки щодо взаємодії, які стандартна СР ігнорує.

💰 Практичне застосування

  • Плагін для Jupyter Notebooks/VS Code для дата-сайєнтистів.
  • Корпоративна ліцензія для фармацевтичних компаній для кінетичного моделювання.
  • API сервіс з оплатою за кожне успішне відкриття рівняння.

🏷️ Теги

#Symbolic Regression#LLM Agents#AI for Science#Physics-Informed ML#Equation Discovery

🏢 Релевантні індустрії

Scientific ResearchMaterial ScienceAutomotive EngineeringQuantitative Finance