点击以上传或拖拽文件
格式: JPG, JPEG, PNG, GIF, WEBP
大小: 最多 10MB,最大分辨率:4096×4096
正在上传:demo2.wav
文件大小:295.54 KB
正在上传至服务器…
demo2.wav
文件大小:295.54 KB
✓ 上传成功
Are you sure you want to sign out?
不用再手动录入!扫描件、截图、PDF 一键转为可编辑、可搜索文本——基于 2D 光学映射 AI。
点击以上传或拖拽文件
格式: JPG, JPEG, PNG, GIF, WEBP
大小: 最多 10MB,最大分辨率:4096×4096
正在上传:demo2.wav
文件大小:295.54 KB
正在上传至服务器…
demo2.wav
文件大小:295.54 KB
✓ 上传成功
DeepSeek AI 发布了 DeepSeek-OCR,一种通过光学二维映射压缩长语境的划时代方法。此创新系统证明,基于视觉的压缩在处理高文字密度文件时可达成卓越效率,潜在地改变大型语言模型(LLM)处理海量文本信息的方式。
DeepSeek-OCR 由两个主要组件构成:DeepEncoder 与作为解码器的 DeepSeek3B-MoE-A570M。两者协同可在低于 10× 的压缩比例下(即 10 个文字 token 压缩为 1 个视觉 token)达成 97% OCR 精准度;即便在 20× 的激进压缩比例,系统仍可维持约 60% 的准确率。
DeepSeek-OCR 的核心创新在于能够大幅压缩文字信息,同时维持相当高的准确度:
这些结果显示,轻量语言模型亦能有效解码压缩后的视觉表示,意味着更大的 LLM 可通过合适的预训练设计轻松习得类似能力。
DeepEncoder 是一种全新架构,即使在高分辨率输入下也能维持低启用内存与较少的视觉 token。其关键特性包括:
在 OmniDocBench 基准上,DeepSeek-OCR 展现出卓越效率:
DeepSeek-OCR 展现出卓越的实际应用效能,能够以前所未有的规模为大型语言模型(LLM)和视觉语言模型(VLM)生成训练资料:
目前的开源视觉语言模型(VLM)采用三种主要类型的视觉编码器,各自具有不同的优势和限制:
DeepEncoder 通过结合各种方法的最佳特性,同时最小化其缺点,在内存效率、token 数量和处理能力之间达成平衡,解决了这些限制。
DeepEncoder 设计为高效支持多种分辨率,使其能够处理不同大小和复杂度的文件,而不会牺牲性能或需要过多的计算资源。
解码器组件使用 DeepSeek3B-MoE-A570M,这是一种混合专家架构,在维持高准确度的同时提供高效推理。此设计使模型能够专精于 OCR 任务的不同方面,同时在专家之间共享知识。
发现更多有用的AI工具来提高您的生产力