SokoBench: Оцінка довгострокового планування та міркування у великих мовних моделях

Автори: Sebastiano Monti, Carlo Nicolini, Gianni Pellegrini, Jacopo Staiano, Bruno Lepri

Опубліковано: 2026-02-03

Переглянути на arXiv →
#cs.AI

Анотація

SokoBench представлений як еталон для оцінки можливостей довгострокового планування та міркування великих мовних моделей. Це критично важливо для розробки більш потужних та надійних LLM для складних реальних завдань, що вимагають послідовного прийняття рішень та складного вирішення проблем.

SokoBench: Оцінка довгострокового планування та міркування у великих мовних моделях

Автори: Sebastiano Monti, Carlo Nicolini, Gianni Pellegrini, Jacopo Staiano, Bruno Lepri

Опубліковано: 2026-02-03

Переглянути на arXiv →
#cs.AI

Анотація

SokoBench представлений як еталон для оцінки можливостей довгострокового планування та міркування великих мовних моделей. Це критично важливо для розробки більш потужних та надійних LLM для складних реальних завдань, що вимагають послідовного прийняття рішень та складного вирішення проблем.

FEEDBACK

Проекти

Немає проектів