Gemini 2.0 Flashは大量のPDFをAIで使用できるよう変換する作業でコスト・パフォーマンスの両面で劇的に優れている

プレゼンテーションや配布資料がPDFで共有されることがありますが、このPDFをテキストベースのデータに変換することは、大規模言語モデル(LLM)の出力を最適化するプロセスである検索拡張生成(RAG)にとって頭痛の種です。PDFをテキストベースのデータに変換してRAGで利用できるようにするためのソリューションにはさまざまなものが存在しますが、精度・拡張性・コスト効率を考慮すると微妙な選択肢が多い模様。しかし、Googleの「Gemini 2.0 Flash」を使えばこの作業が劇的に楽になると、Matrisk.aiのCTOを務めるデータサイエンティストのセルゲイ・フィリモノフ氏が解説しています。
Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything - Sergey's Blog
https://www.sergey.fyi/articles/gemini-flash-2
PDFをRAGで利用できるように変換するには、オープンソースソリューションと独自のソリューションが存在します。しかし、オープンソースソリューションでは、レイアウト検出・テーブル解析・マークダウン変換のために複数の特殊な機械学習モデルをオーケストレーションする必要があるそうです。例えば、NVIDIAのマルチモーダルデータ抽出サービスであるnv-ingestでは、8つのサービスと2つのAI用GPUを備えたKubernetesを利用する必要があります。これは非常に面倒な作業であり、「最適なパフォーマンスとは言えない」とフィリモノフ氏は指摘。
独自のソリューションの場合、複雑なレイアウトや一貫した精度の実現が難しく、大規模なデータセットを扱う場合は天文学的な費用がかかってしまうとのこと。例えば、RAGでは数億ページ分のPDFを解析するそうですが、これを独自ソリューションで実行すると、とてつもない費用がかかってしまうそうです。
こういったタスクにAIモデルは非常に適しているようにみえますが、他の手段よりも費用対効果が高いことを証明するには至っていなかったそうです。例えば、OpenAIのGPT-4oを使ってPDFの内容を光学文字認識(OCR)する場合、テーブル上でありもしない間違ったセルアーティファクトを生成してしまうことがあった模様。

しかし、Googleの「Gemini 2.0 Flash」は、開発者エクスペリエンスはまだまだOpenAIに後れを取っているものの、コスト効率の面では非常に優秀だそうです。また、前モデルのGemini 1.5 FlashではOCR精度に難があったものの、Gemini 2.0 Flashは「Matrisk.aiの内部テストではほぼ完ぺきなOCR精度を実現していることが確認されました」とフィリモノフ氏は記しています。
以下は各AIモデルを用いてPDFをマークダウン形式に変換する場合の、コスト効率をまとめた表。コスト効率は1ドル(約150円)でPDF何ページ分を変換できるか示しています。
プロバイダー | モデル | コスト効率 |
---|---|---|
Gemini 2.0 Flash | 6000 | |
Gemini 2.0 Flash Lite | 1万2000(未テスト) | |
Gemini 1.5 Flash | 1万 | |
Amazon | Amazon Textract | 1000 |
Gemini 1.5 Pro | 700 | |
OpenAI | GPT-4o mini | 450 |
LlamaIndex | LlamaParse | 300 |
OpenAI | GPT-4o | 200 |
Anthropic | Claude 3.5 Sonnet | 100 |
Reducto | Reducto | 100 |
Lumina AI | Chunkr | 100 |
続いて、各AIモデルの変換パフォーマンスを測定。PDFにはしばしば「スキャンの質の悪いもの」「複数言語にまたがるもの」「複雑なテーブル構造を持つもの」などがありますが、このような「リアルなPDF」でどの程度正確にテキストをスキャンできるかを測定するためのベンチマークであるReductoの「rd-tablebench」を利用しています。
モデル | 正確さ | コメント |
---|---|---|
Reducto | 0.90 ± 0.10 | |
Gemini 2.0 Flash | 0.84 ± 0.16 | ほぼ完ぺき |
Sonnet | 0.81 ± 0.16 | |
Amazon Textract | 0.80 ± 0.16 | |
Gemini 1.5 Pro | 0.77 ± 0.17 | |
Gemini 1.5 Flash | 0.76 ± 0.18 | |
GPT-4o | 0.67 ± 0.19 | 微妙なハルシネーションを起こす |
GPT-4o-mini | 0.65 ± 0.23 | 貧弱 |
Gcloud | 0.62 ± 0.21 | |
Chunkr | 0.62 ± 0.21 |
ReductoはベンチマークにおいてGemini Flash 2.0よりも優れたパフォーマンスを発揮しています。しかし、Gemini Flash 2.0のパフォーマンスが低いケースでは、テーブルの理解に実質的に影響を与えないような、小さな構造上の変化が起きているだけであり、特定の数値が間違って読み取られるようなケースはほとんど見られなかったとフィリモノフ氏は語っています。
なお、Gemini Flash 2.0はテーブル解析だけでなく、PDFをマークダウン形式に変換する際に生じるあらゆる側面においても、ほぼ完ぺきな精度で一貫したパフォーマンスを発揮してくれるとのこと。そのため、Gemini Flash 2.0を使うことで「シンプルでスケーラブルでありながら、安価なインデックスパイプラインが完成する」とフィリモノフ氏は語っています。
なお、PDFをマークダウン形式に変換することは、最初のステップに過ぎません。ドキュメントをRAGで効果的に使用するには、ドキュメントをより小さなチャンクに分割する必要があります。最近の研究で、このタスクにLLMを使用すると、検索精度の点で他のアプローチよりも優れていることが示されています。このステップでLLMを利用する上で問題となるのも「コスト」です。従来のLLMだと膨大なコストがかかっていたそうですが、これもGemini 2.0 Flashの登場で状況が一変した模様。Gemini 2.0 Flashを使用すると1億ページを超えるコーパスをわずか5000ドル(約76万円)で解析できるそうです。
マークダウン変換とチャンク化はドキュメント解析における多くの問題を解決してくれるそうですが、境界ボックス情報が失われるという重大な制限が生じる模様。境界ボックスは抽出された情報をソースとなるPDF内の正確な場所にリンクし、データが偽造されていないことをユーザーに確信させるために不可欠です。
例えば、以下のテーブルは「1」「2」「3」「4」にそれぞれ異なる境界ボックスを有していますが、Geminiはこの境界ボックスを正確に維持することができないというわけ。

しかし、LLMは驚くべき空間理解力を持っているため、テキストをドキュメント内の正確な位置にマッピングできるだろうとフィリモノフ氏は記しています。ただし、Geminiはこの点で苦労しており、どのように指示しても非常に不正確な境界ボックスしか生成されないそうです。これはドキュメントレイアウトの理解がトレーニングデータにおいて十分に表現されていないことを示しているとフィリモノフ氏は指摘しています。
これは一時的な問題であり、Googleがトレーニング中にドキュメント固有のデータをさらに取り入れたり、ドキュメントのレイアウトに重点を置いて微調整したりすれば、このギャップは「かなり簡単に埋めることができるだろう」とフィリモノフ氏は記しました。
これらのソリューションを統合することで、大規模でもエレガントかつ経済的なインデックスパイプラインを構築することができるとフィリモノフ氏は主張しています。さらに、「この取り組みは最終的にオープンソース化される予定ですが、他の多くの企業も同様のライブラリを実装することになると思います」と言及。
加えて、「重要なのは、解析、チャンク化、境界ボックス検出という3つの課題を解決すれば、LLMへのドキュメントの取り込みが実質的に『解決』されるということです。この進歩により、ドキュメント解析が効率的であるだけでなく、あらゆるユースケースにおいて実質的に手間がかからないものとなる未来が、非常に近づいています」と語りました。
・関連記事
GoogleがGemini 2.0を誰でも使えるように公開、新たに低コスト版や高機能版、検索機能付属版も登場 - GIGAZINE
Googleが思考プロセスを導入して推論を強化したAIモデル「Gemini 2.0 Flash Thinking」を公開、各種テストでOpenAIのo1-previewやGPT-4oを超える性能 - GIGAZINE
OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能 - GIGAZINE
Googleが「Gemini 2.0」を発表、高速な軽量モデルで前世代上位モデルを圧倒的に上回る性能 - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by logu_ii
You can read the machine translated English article Gemini 2.0 Flash is dramatically better ….