2026年06月24日 14時15分 AI

Baiduが長い文書を一度に読めるAIモデル「Unlimited OCR」をオープンソースで公開

Baidu(百度)が長文書類を一度に読み取ることを目的としたAIモデル「Unlimited OCR」をオープンソースで公開しました。Unlimited OCRは画像やPDFに含まれる文字を読み取るOCRモデルで、特に複数ページにわたる長い文書の解析を重視しているとのことです。

[2606.23050] Unlimited OCR Works
https://arxiv.org/abs/2606.23050

We’re open-sourcing Unlimited OCR — built to read long documents in one pass.

With 3B total parameters and only 500M activated, Unlimited OCR sets new end-to-end SOTA results on OmniDocBench v1.5 and v1.6.

The key innovation is Reference Sliding Window Attention (R-SWA),… pic.twitter.com/cBRqmyRUKN
— Baidu AI (@BaiduAI_News) 2026年6月23日

紙の契約書をスキャンしてPDFにしたり、研究論文のページをまとめて読み込ませたり、マニュアルや議事録から必要な記述を探したりするとき、OCRは画像の中にある文字をテキストとして取り出す役割を担います。短い画像なら従来のOCRでも扱いやすい一方で、何十ページもあるPDFではページごとに処理して後から結果をつなぎ合わせる必要が出てきます。ページを分けて処理すると時間がかかるだけでなく、前後の文脈や表のつながりが失われやすくなります。

近年はAIモデルを使って画像内の文字や文書構造を読み取るOCRも増えています。AIモデルを使うと、単に文字を拾うだけでなく、文章の流れや表、レイアウトを考慮した読み取りが期待できます。しかし、出力する文章が長くなるほど、AIが前に出力した内容を覚えておくための一時的なメモにあたる「KVキャッシュ」が増え、メモリ使用量が大きくなり、生成速度も落ちるという課題がありました。

Unlimited OCRはこうした長文処理の問題を解決するために公開された新しいオープンソースモデルです。論文では、2025年10月にリリースされた「DeepSeek-OCR」をベースラインとして、長文出力時にメモリ使用量が増える課題をR-SWAで抑える設計だと説明されています。

DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース - GIGAZINE

Unlimited OCRは長い文書を1回の処理で解析できる点が特徴とのこと。論文では、最大コンテキスト長32Kという条件で数十ページの文書を1回の推論処理で転写できると説明されています。

長文処理を支える仕組みとして導入されているのが「Reference Sliding Window Attention(R-SWA)」です。AttentionはAIが入力のどの部分に注目するかを決める仕組みで、R-SWAは文書画像などの参照情報を見ながら、出力済みテキストについては直近の一定範囲を作業記憶のように扱います。すべての出力を無制限にため込むのではなく、必要な参照情報と直近の文脈を使うことでKVキャッシュを一定に保ち、長文でも処理コストを抑える設計とのこと。

モデル規模は総パラメーター数が3B(30億)で、実際の処理で有効化されるパラメーターは500M(5億)とされています。すべてのパラメーターを常に使うのではなく、一部を有効化する設計にすることで長文処理に必要な能力と計算効率の両立を図っています。

GitHubのサンプルコードでは複数ページの画像やPDFを扱う処理の実例が示されています。PDFはページを画像に変換したうえで複数ページ解析を行う形式とのこと。

BaiduはUnlimited OCRのコードとモデルの重みをMITライセンスで公開しており、記事作成時点でGitHub、Hugging Face、ModelScopeから利用できるようになっています。また、論文ではR-SWAについてOCRだけでなく音声認識や翻訳など長い出力を扱う処理にも応用可能だと述べられており、長文を読むAIの仕組みが文書以外の分野にも広がる可能性があるとのことです。

この記事のタイトルとURLをコピーする