Zonkey: Ієрархічна дифузійна мовна модель з диференційованою токенізацією та імовірнісною увагою
Автори: Alon Rozental
Опубліковано: 2026-01-29
Переглянути на arXiv →Анотація
Великі мовні моделі (LLM) революціонізували обробку природної мови, проте вони залишаються обмеженими фіксованими, недиференційованими токенізаторами, такими як Byte Pair Encoding (BPE), що перешкоджає наскрізній оптимізації та адаптивності до шумних або предметно-орієнтованих даних. Ми представляємо Zonkey, ієрархічну дифузійну модель, яка долає ці обмеження за допомогою повністю тренованого конвеєра від сирих символів до представлень на рівні документа. В її основі лежить диференційований токенізатор (Segment Splitter), який вивчає імовірнісні рішення про початок послідовності (BOS), що дозволяє адаптивні розбиття, які з'являються як лінгвістично значущі (наприклад, межі слів у пробілах, початки речень у крапках) без явного нагляду. Ця диференційованість забезпечується нашим новим механізмом імовірнісної уваги, який включає позиційно-специфічні ймовірності існування для імітації м'якого маскування над теоретично нескінченними послідовностями, зберігаючи градієнти. Послідовності імовірнісно розпадаються, а не покладаються на токени кінця послідовності, підтримуючи вихідні дані змінної довжини. Ієрархічні рівні стискають послідовності у вищі абстракції (наприклад, n-грами символів у вектори, схожі на слова, потім на речення), з реконструкцією за допомогою нашої змішаної дифузійної моделі денойзингу (DDMM) для стабільного та ефективного денойзингу в латентному просторі. Зшивач забезпечує інваріантність перекриття між сегментами. Навчаючись наскрізно на Вікіпедії, Zonkey генерує узгоджений текст змінної довжини з шуму, демонструючи нові ієрархії та багатообіцяюче якісне узгодження з розподілом даних порівняно з токенізаторами, що навчаються на основі ентропії. Наш підхід просувається до повністю градієнтно-орієнтованих LLM, з потенціалом для кращої адаптації до доменів та масштабованої генерації. Ми публікуємо вихідний код для навчання та відтворення наших експериментів.