AI

日本語対応のOCRモデル「Mistral OCR 4」が登場、PDFや表だらけの文書をAIが「使えるデータ」に変換


Mistral AIが文書読み取りモデル「Mistral OCR 4」をリリースしました。PDFやOffice文書などから文字を取り出すだけでなく、表や数式や署名といった文書内の要素を見分け、どこに何が書かれているのかまで構造化して出力可能なモデルとなっています。

Mistral OCR 4 : SOTA OCR for Document Intelligence
https://mistral.ai/news/ocr-4/


請求書や契約書、決算資料、マニュアルなどを読み取って検索可能にするOCRはさまざまな企業で活用されています。しかし、多くの文書は人間が読む前提で作られているため、単に文字をテキスト化するだけでは「表の中の数字なのか」「見出しなのか」「注釈なのか」「読み取りに自信がある箇所なのか」が分からず、後工程で人の確認や手作業の整形が必要になりがちです。


Mistral OCR 4は文書をプレーンテキストに変換する従来型のOCRから一歩進み、文書をAIや検索システムが扱いやすい形に分解することを狙ったモデルです。Mistral AIによると、OCR 4は抽出したテキストに加えて、文字やブロックの位置を示すバウンディングボックス、タイトル・表・数式・署名などのブロック分類、ページ単位や単語単位の信頼度スコアを返すとのこと。

以下はOCRモデル性能比較の画像。公開ベンチマークのOlmOCRBenchとMistral AIの社内評価であるCrawl Multilingualで、Mistral OCR 4が比較対象の中で最も高いスコアを出していることが分かります。


バウンディングボックスは「文書のどの場所から情報を取ったのか」を示すための機能です。たとえばAIが契約書について回答する際、根拠となる条文の位置を画面上でハイライトしたり、請求書の合計金額がどの欄から読み取られたのかを確認したりできます。信頼度スコアは読み取りが怪しい箇所だけを人間の確認に回す用途に使えるため、全ページを人が見直す作業を減らすことができます。

Mistral AIはMistral OCR 4の用途として、文書解析、検索拡張生成(RAG)、AIエージェントによるフォーム入力や請求書処理、コンプライアンス確認、社内検索やナレッジベースの構築などを想定しているとのこと。

以下はMistral OCR 4と競合製品について、独立した注釈者によるブラインド比較を行った結果の画像です。AWS Textract、Azure Doc Intel、Gemini 3.1 Pro Previewなどの出力に対し、多くの場合でMistral OCR 4の出力が選ばれたことが示されています。


対応形式はPDF、DOC、PPT、OpenDocumentなどの一般的な企業向け文書フォーマットで、170言語を10の言語グループに分けてサポートします。Mistral AIは特に多くのシステムで精度が落ちやすい日本語、ヒンディー語、ギリシャ語などを含む特殊言語カテゴリや低リソース言語でも改善が見られると説明しています。

以下はCrawl Multilingualの特殊言語カテゴリに関する比較画像。Mistral OCR 4、Chandra OCR 2、Mineru Pro、PaddleOCR VLなどのスコアが示されており、多言語文書での読み取り性能でもMistral OCR 4がトップのスコアを出していることが読み取れます。


利用方法として、APIでOCR 4単体を使う方法と、同じAPIにDocument AI機能を重ねる方法があり、Mistral Studioからも利用できるとのこと。APIを単体で使う方法は開発者が自社アプリやデータ処理パイプラインに直接組み込む用途向けで、Document AIを重ねて使う方法は定義したJSONスキーマに合わせて出力を整えたり、画像に注釈を付けたり、カスタム指示で文書を解釈させたりする用途向けとなっています。Mistral AIは「生の抽出結果が必要ならAPIでOCR 4をそのまま使い、特定の業務項目に合わせた構造化が必要ならDocument AIの機能を追加する」という使い分けを示しています。

記事作成時点でMistral OCR 4のAPI料金は1000ページ当たり4ドル(約645円)、Batch API利用時は1000ページ当たり2ドル(約323円)、Document AIは1000ページ当たり5ドル(約808円)です。また、APIとMistral Studioのほか、Amazon SageMaker、Microsoft Foundry経由で利用でき、Snowflake Parse Documentにも対応予定とのこと。機密文書を外部に出せない組織向けには、自社インフラで動かせるセルフホストオプションもエンタープライズ顧客向けに提供するとMistral AIは述べています。

この記事のタイトルとURLをコピーする

・関連記事
ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ - GIGAZINE

無料で日本語・手書き・縦書きもテキスト化できる国立国会図書館のWindows・Mac・Linux向けOCRアプリ「NDLOCR-Lite」 - GIGAZINE

AIのOCR能力を競わせて評価する「OCR Arena」 - GIGAZINE

OCR・音声・構造化出力などの定型タスクに特化したAIモデル「Interfaze」登場 - GIGAZINE

手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場 - GIGAZINE

in AI, Posted by log1d_ts

You can read the machine translated English article The Japanese-language compatible OCR mod….