Компания DeepSeek AI представила DeepSeek‑OCR — революционный метод оптического двумерного отображения для сжатия длинного контекста. Система показывает, что визуальное сжатие позволяет эффективно обрабатывать документы с высокой плотностью текста и потенциально меняет подход больших языковых моделей (LLM) к работе с массивами текстовой информации.
DeepSeek‑OCR состоит из двух ключевых компонентов: DeepEncoder и декодера DeepSeek3B‑MoE‑A570M. В связке они обеспечивают до 97% точности OCR при коэффициенте сжатия менее 10× (10 текстовых токенов на 1 визуальный токен); даже при 20× точности сохраняется около 60%.
1. Высокий коэффициент сжатия и точность
Ключевая инновация DeepSeek‑OCR — значительное сжатие текстовой информации при сохранении высокой точности:
- При сжатии 9–10× — точность OCR 96%+
- При 10–12× — около 90%
- При 20× — около 60%
Это показывает, что легковесные языковые модели способны эффективно декодировать сжатые визуальные представления; более крупные LLM при соответствующем предобучении легко перенимают аналогичные навыки.
2. DeepEncoder: низкая активируемая память и высокая эффективность
DeepEncoder — новая архитектура, сохраняющая низкие затраты активируемой памяти и малое число визуальных токенов даже при высоком разрешении входных данных. Важные особенности:
- Кодировщик сочетает оконное и глобальное внимание в последовательной компоновке
- 16× свёрточный сжиматель, уменьшающий число визуальных токенов перед плотным глобальным вниманием
- Обработка крупноформатных изображений без переполнения памяти GPU
- Эффективное сжатие памяти и токенов для оптимальной производительности
3. SOTA с минимальным числом токенов
На бенчмарке OmniDocBench DeepSeek‑OCR демонстрирует высочайшую эффективность:
- Всего 100 визуальных токенов — превосходит GOT‑OCR2.0 (256 токенов на страницу)
- Менее 800 визуальных токенов — лучше MinerU2.0 (в среднем 6000+ токенов на страницу)
- SOTA в end‑to‑end модели при минимуме визуальных токенов
4. Масштабируемость для продакшена
DeepSeek‑OCR обладает выдающейся практической производительностью, генерируя обучающие данные для LLM и VLM в невиданных объёмах:
- Одна A100‑40G обрабатывает 200 000+ страниц в день
- 20 узлов (160 A100‑40G) — до 33 млн страниц в день
- Готов к реальным деплойментам для задач массовой обработки документов
Сравнение визуальных кодировщиков
Современные открытые визуально‑языковые модели (VLM) используют три основные категории визуальных кодировщиков — каждая со своими преимуществами и ограничениями:
- Двухбашенная архитектура (например, Vary): управляемые параметры, но сложная двойная предобработка изображений
- Тайловый подход (например, InternVL2.0): снижает активируемую память, но может приводить к чрезмерной фрагментации и большому числу визуальных токенов
- Кодирование с адаптивным разрешением (например, Qwen2‑VL): гибкая работа с разными разрешениями, но высокий расход активируемой памяти
DeepEncoder объединяет сильные стороны разных подходов, минимизируя их недостатки, и находит баланс между эффективностью памяти, количеством токенов и производительностью обработки.
Поддержка разных разрешений
DeepEncoder спроектирован для эффективной поддержки множества разрешений, обрабатывая документы разных размеров и сложности без потери производительности и чрезмерных вычислительных ресурсов.
Архитектура декодера MoE
Декодер использует DeepSeek3B‑MoE‑A570M — смесь экспертов, обеспечивающую эффективный и точный вывод. Модель специализируется на разных аспектах задач OCR, обмениваясь знаниями между экспертами.