ソフトウェア

高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に


AI開発企業のMistral AIが、画像に含まれるテキストを認識してテキストデータに変換できるAIモデル「Mistral OCR」を発表しました。Mistral OCRはLaTeXで書かれた複雑な数式も認識できるのに加え、文書に含まれる図や表の位置関係を崩さずマークダウン形式で出力できます。

Mistral OCR | Mistral AI
https://mistral.ai/news/mistral-ocr

Mistral AIはMistral OCRの能力を示す例を複数公開しています。まず、処理前のオリジナルデータが以下。テキストだけでなく図や表も含まれています。


Mistral OCRで処理した結果はこんな感じ。図とテキストの位置関係を崩さずに変換できました。また、表の内容も行や列の関係を崩さずに変換できています。OCR結果はマークダウン形式で出力され、出力結果をJSONなどの構造化されたデータ形式にまとめることも可能。チャットAIなどのAIサービスにMistral OCRを組み込むことで、文書のスキャンデータや撮影データをAIにとって処理しやすい形式に変換できます。


複雑な数式を含む文書もOCR処理できます。処理前の元データはこんな感じ。


処理結果は以下の通り。数式をそのままの見た目で変換できました。


Mistral OCRの性能を「Google Document AI」「Azure OCR」「Gemini 1.5 Flash」「Gemini 1.5 Pro」「Gemini 2.0 Flash」「GPT-4o」と比較した表が以下。Mistral OCRは数式やスキャンデータを含むすべてのカテゴリで最も精度の高いOCRが可能です。


また、Mistral OCRは多言語対応を念頭に開発されており、ロシア語やフランス語などの英語以外の言語も高精度に認識できます。


Mistral OCRは動作速度の速さも特徴で、単一ノードで1分当たり最大2000ページのOCR処理が可能です。以下の「図表を含むPDFファイルをマークダウン形式に変換するデモ」を再生すると、処理の速さがよく分かります。

Mistral OCR on Alphafold paper - YouTube


Mistral OCRは「Le Chat」で無料で使えます。また、APIはMistral AIの開発者向けプラットフォーム「la Plateforme」を通じて利用可能。さらに、近日中に各種クラウドプラットフォームでの提供が始まるほか、厳格なデータプライバシー要件を持つ組織向けにオンプレミスでの提供も予定されているとのことです。

この記事のタイトルとURLをコピーする

・関連記事
Gemini 2.0 Flashは大量のPDFをAIで使用できるよう変換する作業でコスト・パフォーマンスの両面で劇的に優れている - GIGAZINE

無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」 - GIGAZINE

Mistral AIがチャットAI「Le Chat」のiOS版とAndroid版を公開、日本語でも使えるので試してみた - GIGAZINE

高速推論が可能なレイテンシ重視AIモデル「Mistral Small 3」がリリースされる - GIGAZINE

Mistral AIが124BサイズのマルチモーダルAIモデル「Pixtral Large」リリース、GPT-4oやGemini-1.5 Proなどを上回るパフォーマンス - GIGAZINE

リアルタイムで機密情報を隠しながら音声の文字起こしができるオープンソースAIモデル「WhisperNER」 - GIGAZINE

MozillaがOpenAIのWhisperベースの高性能文字起こしAI「Whisperfile」を開発中 - GIGAZINE

in ソフトウェア,   動画, Posted by log1o_hf

You can read the machine translated English article Introducing the high-speed and highly ac….