免费 DeepSeek‑OCR 在线工具:从任何图片精准提取文字(97%准确率)

不用再手动录入!扫描件、截图、PDF 一键转为可编辑、可搜索文本——基于 2D 光学映射 AI。

点击以上传或拖拽文件

格式: JPG, JPEG, PNG, GIF, WEBP

大小: 最多 10MB,最大分辨率:4096×4096

OCR 任务类型

摘要:语境压缩的新范式

DeepSeek AI 发布了 DeepSeek-OCR,一种通过光学二维映射压缩长语境的划时代方法。此创新系统证明,基于视觉的压缩在处理高文字密度文件时可达成卓越效率,潜在地改变大型语言模型(LLM)处理海量文本信息的方式。

DeepSeek-OCR 由两个主要组件构成:DeepEncoder 与作为解码器的 DeepSeek3B-MoE-A570M。两者协同可在低于 10× 的压缩比例下(即 10 个文字 token 压缩为 1 个视觉 token)达成 97% OCR 精准度;即便在 20× 的激进压缩比例,系统仍可维持约 60% 的准确率。

DeepSeek-OCR 的颠覆性在哪里?

1. 极高压缩比与高准确度

DeepSeek-OCR 的核心创新在于能够大幅压缩文字信息,同时维持相当高的准确度:

  • 在 9–10× 压缩比下,OCR 精准度 96%+
  • 在 10–12× 压缩比下,准确度约 90%
  • 在 20× 压缩比下,准确度约 60%

这些结果显示,轻量语言模型亦能有效解码压缩后的视觉表示,意味着更大的 LLM 可通过合适的预训练设计轻松习得类似能力。

2. DeepEncoder:低启用内存、高效率

DeepEncoder 是一种全新架构,即使在高分辨率输入下也能维持低启用内存与较少的视觉 token。其关键特性包括:

  • 以序列连接方式结合窗口注意力与全局注意力的编码组件
  • 16× 卷积压缩器,在进入密集的全局注意力之前先缩减视觉 token
  • 可处理大型图片而不致造成 GPU 内存溢出
  • 有效的内存与 token 压缩以达到最佳效能

3. 以最少 token 达成 SOTA 表现

OmniDocBench 基准上,DeepSeek-OCR 展现出卓越效率:

  • 仅使用 100 个视觉 token,便超越 GOT-OCR2.0(每页使用 256 token)
  • 在少于 800 个视觉 token 的情况下,表现优于 MinerU2.0(每页平均 6000+ token)
  • 在端到端模型中以最少的视觉 token 取得 SOTA 表现

4. 大规模生产扩展性

DeepSeek-OCR 展现出卓越的实际应用效能,能够以前所未有的规模为大型语言模型(LLM)和视觉语言模型(VLM)生成训练资料:

  • 单一 A100-40G GPU 每日可处理 200,000+ 页面
  • 使用 20 个节点(160 个 A100-40G GPU)每日可处理 3,300 万页面
  • 适用于大规模文件处理任务的实际部署

DeepSeek-OCR 背后的技术架构

视觉编码器比较

目前的开源视觉语言模型(VLM)采用三种主要类型的视觉编码器,各自具有不同的优势和限制:

  • 双塔架构(例如 Vary):提供可控制的参数,但需要复杂的双重图像预处理
  • 基于瓦片的方法(例如 InternVL2.0):减少启用内存,但可能导致过度分割和大量视觉 token
  • 自适应分辨率编码(例如 Qwen2-VL):灵活处理多种分辨率,但面临大量启用内存消耗的挑战

DeepEncoder 通过结合各种方法的最佳特性,同时最小化其缺点,在内存效率、token 数量和处理能力之间达成平衡,解决了这些限制。

多分辨率支持

DeepEncoder 设计为高效支持多种分辨率,使其能够处理不同大小和复杂度的文件,而不会牺牲性能或需要过多的计算资源。

MoE 解码器架构

解码器组件使用 DeepSeek3B-MoE-A570M,这是一种混合专家架构,在维持高准确度的同时提供高效推理。此设计使模型能够专精于 OCR 任务的不同方面,同时在专家之间共享知识。

推荐的AI工具

发现更多有用的AI工具来提高您的生产力

从照片中移除人物

使用AI从照片中移除不需要的人物。通过移除特定人物来清理您的图像。

移除人物 照片编辑

将照片变成吉卜力风格

将您的照片转换为吉卜力工作室动画风格。从您的图片创建神奇的动漫艺术作品。

吉卜力风格 动漫艺术

将照片变成漫画

将您的照片转换为漫画风格艺术作品。从您的图像创建日本漫画风格的插图。

漫画风格 日本艺术
浏览更多工具