DeepSeek-OCR 2: Візуальний причинно-наслідковий потік

Автори: Haoran Wei, Yaofeng Sun, Yukun Li

Опубліковано: 2026-01-28

Переглянути на arXiv →
#cs.AI

Анотація

DeepSeek-OCR 2 представляє DeepEncoder V2, передову візіо-мовну модель, яка значно покращує можливості оптичного розпізнавання символів (OCR). Ця модель має новий механізм «візуального причинно-наслідкового потоку», який динамічно змінює порядок візуальних токенів на основі їхньої семантичної значущості. Цей інноваційний підхід забезпечує більш людське причинно-наслідкове мислення у 2D-розумінні зображень за допомогою каскадних 1D-причинно-наслідкових структур, що призводить до суттєвих покращень точності OCR. Модель досягає вражаючої загальної продуктивності 91,09% на OmniDocBench v1.5, що на 3,73% краще, ніж у її попередника, і значно зменшує відстань редагування порядку читання, що робить її високоефективною для обробки документів та інших реальних застосувань.

DeepSeek-OCR 2: Візуальний причинно-наслідковий потік

Автори: Haoran Wei, Yaofeng Sun, Yukun Li

Опубліковано: 2026-01-28

Переглянути на arXiv →
#cs.AI

Анотація

DeepSeek-OCR 2 представляє DeepEncoder V2, передову візіо-мовну модель, яка значно покращує можливості оптичного розпізнавання символів (OCR). Ця модель має новий механізм «візуального причинно-наслідкового потоку», який динамічно змінює порядок візуальних токенів на основі їхньої семантичної значущості. Цей інноваційний підхід забезпечує більш людське причинно-наслідкове мислення у 2D-розумінні зображень за допомогою каскадних 1D-причинно-наслідкових структур, що призводить до суттєвих покращень точності OCR. Модель досягає вражаючої загальної продуктивності 91,09% на OmniDocBench v1.5, що на 3,73% краще, ніж у її попередника, і значно зменшує відстань редагування порядку читання, що робить її високоефективною для обробки документів та інших реальних застосувань.

FEEDBACK

Проекти

Немає проектів