DeepSeek AI ha lanzado DeepSeek-OCR, un método revolucionario que comprime contextos largos mediante mapeo óptico bidimensional. Este sistema innovador demuestra que la compresión basada en visión puede lograr una eficiencia excepcional al procesar documentos con alta densidad de texto, cambiando potencialmente la forma en que los modelos de lenguaje grandes (LLM) manejan información textual masiva.
DeepSeek-OCR consta de dos componentes principales: DeepEncoder y DeepSeek3B-MoE-A570M como decodificador. Trabajando juntos, pueden lograr una precisión OCR del 97% con una relación de compresión inferior a 10× (es decir, 10 tokens de texto comprimidos en 1 token visual); incluso con una compresión agresiva de 20×, el sistema mantiene aproximadamente un 60% de precisión.
1. Relación de compresión extremadamente alta con alta precisión
La innovación central de DeepSeek-OCR radica en su capacidad de comprimir significativamente la información textual manteniendo una precisión considerablemente alta:
- Con una compresión de 9–10×, precisión OCR del 96%+
- Con una compresión de 10–12×, precisión de aproximadamente 90%
- Con una compresión de 20×, precisión de aproximadamente 60%
Estos resultados muestran que los modelos de lenguaje ligeros también pueden decodificar efectivamente representaciones visuales comprimidas, lo que significa que los LLM más grandes pueden adquirir fácilmente capacidades similares a través del diseño de preentrenamiento adecuado.
2. DeepEncoder: Baja memoria de activación, alta eficiencia
DeepEncoder es una arquitectura completamente nueva que mantiene baja memoria de activación y menos tokens visuales incluso con entradas de alta resolución. Sus características clave incluyen:
- Componentes de codificación que combinan atención de ventana y atención global de manera secuencial
- Compresor convolucional 16×, que reduce los tokens visuales antes de entrar en la atención global densa
- Puede procesar imágenes grandes sin causar desbordamiento de memoria GPU
- Compresión efectiva de memoria y tokens para lograr el rendimiento óptimo
3. Rendimiento SOTA con mínimos tokens
En el benchmark OmniDocBench, DeepSeek-OCR demuestra una eficiencia excepcional:
- Usando solo 100 tokens visuales, supera a GOT-OCR2.0 (que usa 256 tokens por página)
- Con menos de 800 tokens visuales, supera a MinerU2.0 (promedio de 6000+ tokens por página)
- Logra rendimiento SOTA en modelos de extremo a extremo con el menor número de tokens visuales
4. Escalabilidad de producción a gran escala
DeepSeek-OCR demuestra un rendimiento excepcional en aplicaciones del mundo real, capaz de generar datos de entrenamiento para modelos de lenguaje grandes (LLM) y modelos de visión-lenguaje (VLM) a una escala sin precedentes:
- Una sola GPU A100-40G puede procesar 200,000+ páginas por día
- Usando 20 nodos (160 GPUs A100-40G) puede procesar 33 millones de páginas por día
- Adecuado para despliegue práctico en tareas de procesamiento de documentos a gran escala
Comparación de codificadores visuales
Los modelos de visión-lenguaje (VLM) de código abierto actuales emplean tres tipos principales de codificadores visuales, cada uno con diferentes ventajas y limitaciones:
- Arquitectura de dos torres (ej. Vary): Proporciona parámetros controlables, pero requiere preprocesamiento complejo de doble imagen
- Métodos basados en mosaicos (ej. InternVL2.0): Reduce la memoria de activación, pero puede llevar a sobre-segmentación y gran cantidad de tokens visuales
- Codificación de resolución adaptativa (ej. Qwen2-VL): Maneja flexiblemente múltiples resoluciones, pero enfrenta desafíos de gran consumo de memoria de activación
DeepEncoder resuelve estas limitaciones combinando las mejores características de varios métodos mientras minimiza sus desventajas, logrando un equilibrio entre eficiencia de memoria, número de tokens y capacidad de procesamiento.
Soporte multi-resolución
DeepEncoder está diseñado para soportar eficientemente múltiples resoluciones, permitiéndole manejar documentos de diferentes tamaños y complejidades sin sacrificar rendimiento o requerir recursos computacionales excesivos.
Arquitectura de decodificador MoE
El componente decodificador utiliza DeepSeek3B-MoE-A570M, una arquitectura de mezcla de expertos que proporciona inferencia eficiente mientras mantiene alta precisión. Este diseño permite al modelo especializarse en diferentes aspectos de las tareas OCR mientras comparte conocimiento entre expertos.