PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能
Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。
Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen
https://qwenlm.github.io/blog/qwen2.5-vl/
🎉 恭喜发财🧧🐍 As we welcome the Chinese New Year, we're thrilled to announce the launch of Qwen2.5-VL , our latest flagship vision-language model! 🚀
— Qwen (@Alibaba_Qwen) January 27, 2025
💗 Qwen Chat: https://t.co/T0nMBnRVBB
📖 Blog: https://t.co/FU7qEgE46j
🤗 Hugging Face: https://t.co/N9XSslZX8d
🤖 ModelScope:… pic.twitter.com/KgjC2lHcvR
Qwen2.5 VLの性能を示す例が以下。「自動車の写真を4枚並べた画像」を見せて「車種名を英語と中国語で教えて」と頼むと正しく回答してくれます。
二人のバスケットボール選手が写った写真を見せて「選手の名前と左手・右手の位置をラベル付けする」という複雑なタスクもこなせます。
縦書きの文字を書き起こすことも可能。
1時間を超える動画の内容を要約することもできます。
さらに、Qwen2.5 VLはPCやスマートフォンのUIを認識して自動操作することもできます。以下の動画ではQwen2.5 VLが「Visual Studio Codeに拡張機能をインストールする」というタスクを実行する様子を確認できます。
AIモデル「Qwen2.5 VL」でPCを自動操作する様子 - YouTube
スマートフォンのチケット予約アプリを使って航空券を予約することもできます。
「Qwen2.5 VL」でスマホアプリを自動操作して航空券を予約 - YouTube
Qwen2.5 VLは「3B」「7B」「72B」の3種類が展開されています。「Qwen2.5 VL 72B」は各種ベンチマークで「Gemini 2.0 Flash」や「GPT-4o」を上回っています。
また、「Qwen2.5 VL 7B」は「GPT-4o mini」よりも高い性能を示しています。
Qwen2.5 VLはすでにQwen製チャットAI「Qwen Chat」で使用可能です。
また、「Qwen2.5-VL-3B-Instruct」「Qwen2.5-VL-7B-Instruct」「Qwen2.5-VL-72B-Instruct」の3種類がHugging Faceで公開されています。
Qwen2.5-VL - a Qwen Collection
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
・関連記事
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能 - GIGAZINE
AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース - GIGAZINE
AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、数学や科学的推論において優れた性能を発揮 - GIGAZINE
オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能 - GIGAZINE
OpenAIがあらゆるウェブサイトでのタスクをAIに依頼できる「Operator」を発表 - GIGAZINE
OpenAI o1相当の推論モデル「DeepSeek R1」を中国AI企業が商用利用や改変が可能なMITライセンスでリリース - GIGAZINE
DeepSeekはどのようにしてOpenAIの3%のコストでo1を超えたのか? - GIGAZINE
・関連コンテンツ
in ソフトウェア, 動画, Posted by log1o_hf
You can read the machine translated English article Alibaba's AI research team has relea….