クリックしてアップロード、またはファイルをドラッグ&ドロップ
形式: JPG, JPEG, PNG, GIF, WEBP
サイズ: 最大 10MB、最大解像度:4096×4096
アップロード中:demo2.wav
ファイルサイズ:295.54 KB
サーバーへアップロード中…
demo2.wav
ファイルサイズ:295.54 KB
✓ アップロード成功
本当にサインアウトしますか?
もう手入力は不要!スキャン、スクリーンショット、PDF を 2D 光学マッピング AI で編集・検索可能なテキストに即変換。
クリックしてアップロード、またはファイルをドラッグ&ドロップ
形式: JPG, JPEG, PNG, GIF, WEBP
サイズ: 最大 10MB、最大解像度:4096×4096
アップロード中:demo2.wav
ファイルサイズ:295.54 KB
サーバーへアップロード中…
demo2.wav
ファイルサイズ:295.54 KB
✓ アップロード成功
DeepSeek AI は DeepSeek-OCR を発表しました。これは、光学的な二次元マッピングによって長い文脈を圧縮する画期的な手法です。この革新的なシステムは、視覚に基づく圧縮が文字密度の高い文書を処理する際に卓越した効率を達成できることを示し、大規模言語モデル(LLM)が膨大なテキスト情報を処理する方法を変える可能性を秘めています。
DeepSeek-OCR は 2 つの主要コンポーネントから構成されます:DeepEncoder とデコーダーとしての DeepSeek3B-MoE-A570M。両者の協調により、10× 未満の圧縮率(つまり 10 個のテキストトークンを 1 個の視覚トークンに圧縮)でも 97% の OCR 精度を達成します。20× の攻めた圧縮率でも、システムは約 60% の正確性を維持します。
DeepSeek-OCR の中核的な革新は、文字情報を大幅に圧縮しつつ高い精度を維持できる点にあります。
これらの結果は、軽量な言語モデルでも圧縮済みの視覚表現を効果的にデコードできることを示し、より大きな LLM も適切な事前学習設計によって同様の能力を容易に獲得できることを意味します。
DeepEncoder は新しいアーキテクチャであり、高解像度の入力でも稼働メモリを低く保ち、視覚トークン数を少なく維持できます。主な特長は以下の通りです。
OmniDocBench ベンチマークにおいて、DeepSeek-OCR は卓越した効率を示しています。
DeepSeek-OCR は実運用で優れた性能を発揮し、LLM と VLM のための学習データをかつてない規模で生成できます。
現在のオープンソースの視覚言語モデル(VLM)は、主に 3 種類の視覚エンコーダを採用しており、それぞれに異なる利点と制約があります。
DeepEncoder は各手法の長所を組み合わせつつ欠点を最小化し、メモリ効率・トークン数・処理能力の間でバランスを取り、これらの制約を解消します。
DeepEncoder は複数の解像度を効率的にサポートするよう設計されており、サイズや複雑さが異なる文書を性能を損なうことなく、過剰な計算資源を必要とせずに処理できます。
デコーダコンポーネントは DeepSeek3B-MoE-A570M を採用しており、混合エキスパート(MoE)構造により高い精度を維持しつつ効率的な推論を提供します。この設計により、モデルは OCR タスクの異なる側面に専門化しながら、エキスパート間で知識を共有できます。
生産性を向上させるさらに便利なAIツールを発見してください