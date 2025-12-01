Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5％の精度で特定可能
中国のIT大手・Alibaba(阿里巴巴：アリババ)が、AIモデル「Qwen」シリーズで最も高性能な視覚言語モデルである「Qwen3-VL」の技術レポートを公開しました。様々なベンチマークを行った結果、Qwen3-VLは「視覚的な数学タスク」を得意とするほか、言語網羅率もQwen2.5のほぼ4倍の39言語に増加し、そのうち32の言語でOCR精度が70％超えとなっていることが報告されています。
実施されたテストの1つは、「映像の中に、意味的に重要なフレームをランダムに紛れ込ませて検出できるかどうか」を調べる「needle-in-a-haystack」テストです。フラッグシップモデルにあたる2350億パラメーターのQwen3-VL-235B-A22Bの場合、約25万6000トークンに相当する30分の映像であれば100％の精度で混入したフレームを検出することができました。映像が約10万トークンに相当する2時間でも、精度は99.5％と非常に高い値を維持しました。
先行する他の視覚言語モデルは、長時間にわたって一貫した分析を行うことに苦労してきましたが、「Qwen3-VLは長尺動画の理解で重要な進歩を遂げた」とAI情報ニュースサイトのUnite.AIは述べています。
Qwen3-VLは、視覚的数学的推論能力を測るベンチマークのMathVistaで85.5％というスコアを獲得し、GPT-5の81.3％を上回りました。また、同じくMathVisionでは74.6％のスコアで、Gemini 2.5 Pro(73.3％)やGPT-5(65.8％)をリードしました。
文書処理能力も高く、文書の理解力を測るDocVQAで96.5％、OCRBenchで875点と、いずれも高いスコアを記録しました。テキスト認識は前世代モデルにあたるQwen2.5-VLの約4倍となる39言語をサポートしていて、対応言語のうち32言語のOCRタスクで70％以上の精度を達成しています。
ただし、すべての能力で既存のAIモデルを上回っているかというとそんなことはなく、マルチモーダルLLM向けテストであるMMMU-Proでは69.3％と、GPT-5の78.4％に大きく差をつけられました。
また、動画コンテンツの理解を問う一般的な動画質問応答ベンチマークでもライバルよりスコアが低く、Unite.AIはQwen3-VLを「汎用的なリーダーではなく、視覚的数学と文書分析の専門家として優れていることを示唆する」と評しています。
得意と不得意がはっきりしている点について、AI系ニュースサイトのImplicator.AIは「弱点ではなく、デザインの選択で、トレーニングリソースを均一なパフォーマンスではなく特定機能に向けたもの」と述べています。
つまり、視覚的数学などの専門的タスクでは、オープンソースモデルであるQwen3-VLがプロプライエタリモデルに匹敵する、あるいは凌駕しうることを実証するものだというわけです。
ちなみに、フラッグシップのQwen3-VL-235Bモデルは約471GBのストレージ容量と十分なGPUメモリを要求されるため、市販レベルのPCを使うユーザーには向いておらず、一般的ユーザーのハードウェアでも動作するQwen3-VL-8Bモデルが200万ダウンロードされるなど人気を集めています。
