DeepSeek‑OCR を無料でオンライン利用:どんな画像からも 97% 精度で文字抽出

もう手入力は不要!スキャン、スクリーンショット、PDF を 2D 光学マッピング AI で編集・検索可能なテキストに即変換。

クリックしてアップロード、またはファイルをドラッグ&ドロップ

形式: JPG, JPEG, PNG, GIF, WEBP

サイズ: 最大 10MB、最大解像度:4096×4096

OCR タスクの種類

要約:文脈圧縮の新たなパラダイム

DeepSeek AI は DeepSeek-OCR を発表しました。これは、光学的な二次元マッピングによって長い文脈を圧縮する画期的な手法です。この革新的なシステムは、視覚に基づく圧縮が文字密度の高い文書を処理する際に卓越した効率を達成できることを示し、大規模言語モデル(LLM)が膨大なテキスト情報を処理する方法を変える可能性を秘めています。

DeepSeek-OCR は 2 つの主要コンポーネントから構成されます:DeepEncoder とデコーダーとしての DeepSeek3B-MoE-A570M。両者の協調により、10× 未満の圧縮率(つまり 10 個のテキストトークンを 1 個の視覚トークンに圧縮)でも 97% の OCR 精度を達成します。20× の攻めた圧縮率でも、システムは約 60% の正確性を維持します。

DeepSeek-OCR の革新性はどこにあるのか?

1. 非常に高い圧縮率と高精度

DeepSeek-OCR の中核的な革新は、文字情報を大幅に圧縮しつつ高い精度を維持できる点にあります。

  • 9–10× の圧縮率で、OCR 精度 96% 以上
  • 10–12× の圧縮率で、精度は約 90%
  • 20× の圧縮率で、精度は約 60%

これらの結果は、軽量な言語モデルでも圧縮済みの視覚表現を効果的にデコードできることを示し、より大きな LLM も適切な事前学習設計によって同様の能力を容易に獲得できることを意味します。

2. DeepEncoder:低稼働メモリ・高効率

DeepEncoder は新しいアーキテクチャであり、高解像度の入力でも稼働メモリを低く保ち、視覚トークン数を少なく維持できます。主な特長は以下の通りです。

  • ウィンドウ注意とグローバル注意を系列結合で組み合わせたエンコーダコンポーネント
  • 16× の畳み込みコンプレッサにより、密なグローバル注意に入る前に視覚トークンを縮減
  • 大型画像を GPU メモリ逼迫なく処理可能
  • メモリとトークンの効果的な圧縮で最適な性能を達成

3. 最少のトークンで SOTA を達成

OmniDocBench ベンチマークにおいて、DeepSeek-OCR は卓越した効率を示しています。

  • 視覚トークンを100個のみに使用し、GOT-OCR2.0(1ページあたり256トークン)を上回る
  • 800個未満の視覚トークンでも、MinerU2.0(1ページ平均6000以上のトークン)より優れた性能
  • エンドツーエンドモデルで最少の視覚トークンで SOTA を達成

4. 大規模運用のスケーラビリティ

DeepSeek-OCR は実運用で優れた性能を発揮し、LLM と VLM のための学習データをかつてない規模で生成できます。

  • 単一の A100-40G GPU で 1 日に 200,000+ ページ を処理
  • 20 ノード(160 基の A100-40G GPU)で 1 日に 3,300 万ページ を処理
  • 大規模な文書処理タスクの実運用に適する

DeepSeek-OCR の技術アーキテクチャ

視覚エンコーダの比較

現在のオープンソースの視覚言語モデル(VLM)は、主に 3 種類の視覚エンコーダを採用しており、それぞれに異なる利点と制約があります。

  • デュアルタワー構造(例:Vary):制御可能なパラメータを提供するが、複雑な二重の画像前処理を要する
  • タイルベース手法(例:InternVL2.0):稼働メモリを削減できるが、過度な分割と大量の視覚トークンを招く可能性
  • アダプティブ解像度エンコード(例:Qwen2-VL):多様な解像度を柔軟に扱えるが、稼働メモリ消費の多さという課題に直面

DeepEncoder は各手法の長所を組み合わせつつ欠点を最小化し、メモリ効率・トークン数・処理能力の間でバランスを取り、これらの制約を解消します。

多解像度サポート

DeepEncoder は複数の解像度を効率的にサポートするよう設計されており、サイズや複雑さが異なる文書を性能を損なうことなく、過剰な計算資源を必要とせずに処理できます。

MoE デコーダのアーキテクチャ

デコーダコンポーネントは DeepSeek3B-MoE-A570M を採用しており、混合エキスパート(MoE)構造により高い精度を維持しつつ効率的な推論を提供します。この設計により、モデルは OCR タスクの異なる側面に専門化しながら、エキスパート間で知識を共有できます。

おすすめAIツール

生産性を向上させるさらに便利なAIツールを発見してください

AI画像影

AIで画像にリアルな影を追加します。より良い視覚的深度のための自然な影を作成します。

ai強化

写真をスケッチに変換

写真を鉛筆スケッチアートワークに変換します。画像から芸術的な白黒スケッチを作成します。

スケッチアート 鉛筆画

AIビデオ顔スワップ

AI技術を使用してビデオの顔をスワップします。ビデオで驚くべき顔スワップ効果を作成します。

ビデオ顔スワップ ビデオ編集
さらにツールを見る