AIのOCR能力を競わせて評価する「OCR Arena」

AIに文書を読み込ませ、そのOCR能力を評価付けする「OCR Arena」が公開されています。
Battle - OCR Arena
https://www.ocrarena.ai/battle
記事作成時点のランキングは1位が「Gemini 3 Preview」、2位が「Gemini 2.5 Pro」、3位が「Opus 4.5 (Medium)」(Claude)、4位が「Gemini 2.5 Flash」、5位が「GPT-5.1 (Medium)」でした。モデル名の右に書かれたELOはイロレーティングのスコア、Win Rateは対戦勝率、Battlesは対戦回数を示します。

バトルは、新たな文書を読み込ませることでスタートします。手元にあるファイルを読み込ませることも可能ですが、とりあえずバトルを見てみたいという場合は「Get a random one」をクリックすればランダムな文書でバトルが始まります。

左側に読み込み元の画像、右側に2つのAIによるOCR結果が表示されます。OCRの下に「Vote Model 1」「Vote Model 2」のボタンがあるので、OCRがよくできていたと思う方のボタンを押して投票します。引き分けの場合はそのさらに下にある「Call it a Tie」を選びます。

ぱっと見て違いがなさそうでも、「Raw(Diff)」をクリックすると差分がカラー表示されて、AI間の違いがわかりやすくなります。この事例では、左のモデルの方が細かい部分の数字が正確でした。

投票すると、OCRを行ったモデルはなんだったのかという情報が開示されます。すべてのモデルのELOスコアは1500からスタートしていて、投票があるごとに評価は更新されています。

制作者はOCR Arenaを作った理由について、「文書処理がAIアプリケーション構築の中核であることから、OCRもすごい勢いで進化しています。しかし、新しいモデルが頻繁にリリースされる一方で評価は難しく、また、ベンチマークでは一部の性能しか示されず、それぞれ自社のテキストやエッジケースでのモデル性能ばかり重視しています。我々は、新モデルのテストの障壁を減らし、OCR評価をオープンで偏りのない、実世界での性能に基づいたものにすることを目標にしています」と述べています。
About - OCR Arena
https://www.ocrarena.ai/about
・関連記事
AIが何に使われているか100兆トークン分の使用実態レポートはこんな感じ - GIGAZINE
Gemini 3 Proは文書・空間・画面・動画理解で最先端パフォーマンスを実現 - GIGAZINE
Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能 - GIGAZINE
・関連コンテンツ
in AI, ネットサービス, Posted by logc_nt
You can read the machine translated English article 'OCR Arena' - Competing and evaluating A….







