SMART SLM: Трансформер із структурованою пам'яттю та міркуваннями, мала мовна модель для точної допомоги з документами
Автори: Divij Dudeja, Mayukha Pal
Опубліковано: 2025-12-24
Переглянути на arXiv →Анотація
Малі мовні моделі (SLM) стикаються з труднощами у розумінні складних документів через обмежений розмір параметрів. SMART SLM, новий трансформер зі структурованою пам'яттю та міркуваннями, покращує можливості SLM для точної допомоги з документами, інтегруючи динамічний, структурований модуль пам'яті, який зберігає та отримує відповідну контекстну інформацію. Це дозволяє здійснювати багатоходове міркування та надавати точні відповіді, особливо для структурованих даних, таких як таблиці та ієрархічні заголовки. Перевершуючи існуючі SLM та конкуруючи з більшими моделями за точністю, зберігаючи при цьому компактний розмір, SMART SLM підходить для реальних застосувань у обробці юридичних, медичних та технічних документів. Він досягає на 21,3% вищої точності, ніж GPT-2, з на 64% меншою кількістю параметрів.