DeepSeek AI hat DeepSeek-OCR veröffentlicht, eine bahnbrechende Methode zur Kompression langer Kontexte durch optisches 2D-Mapping. Dieses innovative System beweist, dass visuelle Kompression bei der Verarbeitung textreicher Dokumente außergewöhnliche Effizienz erreichen kann und möglicherweise die Art und Weise verändert, wie große Sprachmodelle (LLMs) mit umfangreichen Textinformationen umgehen.
DeepSeek-OCR besteht aus zwei Hauptkomponenten: DeepEncoder und DeepSeek3B-MoE-A570M als Decoder. Zusammen können sie bei Kompressionsraten unter 10× (d.h. 10 Text-Token werden zu 1 visuellen Token komprimiert) eine OCR-Genauigkeit von 97% erreichen; selbst bei aggressiven Kompressionsraten von 20× kann das System noch etwa 60% Genauigkeit aufrechterhalten.
1. Extrem hohe Kompressionsrate bei hoher Genauigkeit
Die Kerninnovation von DeepSeek-OCR liegt in der Fähigkeit, Textinformationen drastisch zu komprimieren und dabei eine sehr hohe Genauigkeit zu erhalten:
- Bei 9–10× Kompression: OCR-Genauigkeit 96%+
- Bei 10–12× Kompression: Genauigkeit ca. 90%
- Bei 20× Kompression: Genauigkeit ca. 60%
Diese Ergebnisse zeigen, dass auch leichtgewichtige Sprachmodelle komprimierte visuelle Darstellungen effektiv dekodieren können, was bedeutet, dass größere LLMs durch geeignetes Pre-Training-Design ähnliche Fähigkeiten leicht erlernen können.
2. DeepEncoder: Geringer Aktivierungsspeicher, hohe Effizienz
DeepEncoder ist eine völlig neue Architektur, die auch bei hochauflösenden Eingaben geringen Aktivierungsspeicher und weniger visuelle Token aufrechterhält. Zu den Hauptmerkmalen gehören:
- Kodierungskomponenten, die Fenster-Attention und globale Attention in sequenzieller Verkettung kombinieren
- 16× Faltungskompressor, der visuelle Token reduziert, bevor sie in die dichte globale Attention eingehen
- Kann große Bilder verarbeiten, ohne GPU-Speicherüberlauf zu verursachen
- Effiziente Speicher- und Token-Kompression für optimale Leistung
3. SOTA-Leistung mit minimalen Token
Auf dem OmniDocBench-Benchmark zeigt DeepSeek-OCR außergewöhnliche Effizienz:
- Mit nur 100 visuellen Token übertrifft es GOT-OCR2.0 (verwendet 256 Token pro Seite)
- Mit weniger als 800 visuellen Token übertrifft es MinerU2.0 (durchschnittlich 6000+ Token pro Seite)
- Erreicht SOTA-Leistung in End-to-End-Modellen mit den wenigsten visuellen Token
4. Großskalige Produktionsskalierbarkeit
DeepSeek-OCR zeigt außergewöhnliche praktische Anwendungsleistung und kann Trainingsdaten für große Sprachmodelle (LLMs) und Vision-Language-Modelle (VLMs) in beispiellosem Maßstab generieren:
- Eine einzelne A100-40G GPU kann täglich 200.000+ Seiten verarbeiten
- Mit 20 Knoten (160 A100-40G GPUs) können täglich 33 Millionen Seiten verarbeitet werden
- Geeignet für praktische Bereitstellung bei großskaligen Dokumentenverarbeitungsaufgaben
Vergleich der visuellen Encoder
Aktuelle Open-Source-Vision-Language-Modelle (VLMs) verwenden drei Haupttypen von visuellen Encodern, die jeweils unterschiedliche Vorteile und Einschränkungen haben:
- Dual-Tower-Architektur (z.B. Vary): Bietet kontrollierbare Parameter, erfordert aber komplexe doppelte Bildvorverarbeitung
- Kachel-basierte Methoden (z.B. InternVL2.0): Reduzieren Aktivierungsspeicher, können aber zu übermäßiger Segmentierung und vielen visuellen Token führen
- Adaptive Auflösungscodierung (z.B. Qwen2-VL): Flexible Handhabung verschiedener Auflösungen, steht aber vor Herausforderungen durch hohen Aktivierungsspeicherverbrauch
DeepEncoder löst diese Einschränkungen, indem es die besten Eigenschaften verschiedener Methoden kombiniert und gleichzeitig deren Nachteile minimiert, wodurch ein Gleichgewicht zwischen Speichereffizienz, Token-Anzahl und Verarbeitungskapazität erreicht wird.
Multi-Auflösungsunterstützung
DeepEncoder ist darauf ausgelegt, verschiedene Auflösungen effizient zu unterstützen, wodurch es Dokumente unterschiedlicher Größe und Komplexität verarbeiten kann, ohne die Leistung zu beeinträchtigen oder übermäßige Rechenressourcen zu benötigen.
MoE-Decoder-Architektur
Die Decoder-Komponente verwendet DeepSeek3B-MoE-A570M, eine Mixture-of-Experts-Architektur, die effiziente Inferenz bei gleichzeitiger Aufrechterhaltung hoher Genauigkeit bietet. Dieses Design ermöglicht es dem Modell, sich auf verschiedene Aspekte von OCR-Aufgaben zu spezialisieren und gleichzeitig Wissen zwischen den Experten zu teilen.