DeepSeek-OCR 2: Візуальний причинно-наслідковий потік
Автори: Haoran Wei, Yaofeng Sun, Yukun Li
Опубліковано: 2026-01-28
Переглянути на arXiv →Анотація
DeepSeek-OCR 2 представляє DeepEncoder V2, передову візіо-мовну модель, яка значно покращує можливості оптичного розпізнавання символів (OCR). Ця модель має новий механізм «візуального причинно-наслідкового потоку», який динамічно змінює порядок візуальних токенів на основі їхньої семантичної значущості. Цей інноваційний підхід забезпечує більш людське причинно-наслідкове мислення у 2D-розумінні зображень за допомогою каскадних 1D-причинно-наслідкових структур, що призводить до суттєвих покращень точності OCR. Модель досягає вражаючої загальної продуктивності 91,09% на OmniDocBench v1.5, що на 3,73% краще, ніж у її попередника, і значно зменшує відстань редагування порядку читання, що робить її високоефективною для обробки документів та інших реальних застосувань.