DeepSeek AI ha presentato DeepSeek‑OCR, un metodo rivoluzionario che comprime i lunghi contesti tramite una mappatura ottica 2D. Il sistema dimostra che una compressione basata sulla visione può ottenere efficienza eccellente nella gestione di documenti ad alta densità di testo, con il potenziale di cambiare il modo in cui i modelli linguistici di grandi dimensioni (LLM) elaborano enormi quantità di informazioni testuali.
DeepSeek‑OCR è composto da due componenti principali: DeepEncoder e il decodificatore DeepSeek3B‑MoE‑A570M. Insieme consentono di raggiungere 97% di accuratezza OCR con rapporti di compressione inferiori a 10× (ossia 10 token testuali compressi in 1 token visivo); anche con compressione 20×, il sistema mantiene circa il 60% di accuratezza.
1. Altissimo rapporto di compressione e alta accuratezza
L’innovazione centrale di DeepSeek‑OCR è la capacità di comprimere drasticamente l’informazione testuale mantenendo un’elevata accuratezza:
- Con compressione 9–10×, accuratezza OCR 96%+
- Con compressione 10–12×, accuratezza circa 90%
- Con compressione 20×, accuratezza circa 60%
Questi risultati mostrano che modelli linguistici leggeri possono decodificare efficacemente rappresentazioni visive compresse, suggerendo che LLM più grandi possono acquisire capacità simili con un opportuno pre‑training.
2. DeepEncoder: memoria ridotta e alta efficienza
DeepEncoder è una nuova architettura che mantiene basso uso di memoria e pochi token visivi anche con input ad alta risoluzione. Caratteristiche chiave:
- Componenti di codifica che combinano attenzione a finestra e globale in sequenza
- Compressore convoluzionale 16× che riduce i token visivi prima dell’attenzione globale densa
- Gestisce immagini grandi senza provocare overflow di memoria GPU
- Compressione efficiente di memoria e token per prestazioni ottimali
3. SOTA con il minor numero di token
Su OmniDocBench, DeepSeek‑OCR mostra un’efficienza eccellente:
- Supera GOT‑OCR2.0 utilizzando solo 100 token visivi (contro 256 per pagina)
- Prestazioni migliori di MinerU2.0 con meno di 800 token visivi (contro oltre 6000 per pagina in media)
- Raggiunge SOTA nei modelli end‑to‑end con il minimo di token visivi
4. Scalabilità nella produzione su larga scala
DeepSeek‑OCR offre prestazioni eccezionali in applicazioni reali, generando dati di addestramento per modelli linguistici di grandi dimensioni (LLM) e modelli visivo‑linguistici (VLM) su scala senza precedenti:
- Oltre 200.000 pagine al giorno con una sola GPU A100‑40G
- Fino a 33 milioni di pagine al giorno con 20 nodi (160 GPU A100‑40G)
- Pronto per distribuzioni reali su elaborazioni di documenti su larga scala
Confronto dei codificatori visivi
I modelli visuo‑linguistici open source (VLM) adottano tre principali tipi di codificatori visivi, ciascuno con vantaggi e limiti distinti:
- Architettura a doppia torre (ad esempio Vary): offre parametri controllabili, ma richiede una complessa doppia pre‑elaborazione delle immagini
- Approccio basato su tile (ad esempio InternVL2.0): riduce la memoria di attivazione, ma può causare segmentazioni eccessive e un numero elevato di token visivi
- Codifica a risoluzione adattiva (ad esempio Qwen2‑VL): gestisce in modo flessibile più risoluzioni, ma affronta il problema di un elevato consumo di memoria di attivazione
DeepEncoder combina i migliori tratti dei vari approcci minimizzandone i difetti, bilanciando efficienza di memoria, numero di token e capacità di elaborazione, superando tali limitazioni.
Supporto multi‑risoluzione
DeepEncoder è progettato per supportare in modo efficiente più risoluzioni, consentendo di gestire documenti di dimensioni e complessità diverse senza sacrificare le prestazioni né richiedere risorse computazionali eccessive.
Architettura di decodifica MoE
Il componente di decodifica utilizza DeepSeek3B‑MoE‑A570M, un’architettura a Mixture‑of‑Experts che offre inferenza efficiente mantenendo alta accuratezza. Questo design consente al modello di specializzarsi nei diversi aspetti dei compiti OCR, condividendo la conoscenza tra gli esperti.