スマホ自動操作AI「MAI-UI」が登場、Gemini 3 Proより上手にスマホを操作可能

AlibabaのAI研究チームであるTongyi-MAIがスマートフォンを自動で操作できるAI「MAI-UI」を開発しました。ベンチマークテストではGemini 3 Proを超えるスマートフォン操作能力を示しています。
MAI-UI: Foundational GUI Agent for Mobile Intelligent Assistance
https://tongyi-mai.github.io/MAI-UI/
GitHub - Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.
https://github.com/Tongyi-MAI/MAI-UI?tab=readme-ov-file
MAI-UIは「MAI-UI-2B」「MAI-UI-8B」「MAI-UI-32B」「MAI-UI-235B-A22B」というパラメーター数の異なる4種類のモデルとして開発されています。「MAI-UI-2B」「MAI-UI-8B」「MAI-UI-32B」と他社製モデルのベンチマーク結果を比較したグラフが以下。MAI-UI-32BはScreenSpot-Proというベンチマークテストで73.5%というスコアを記録し、Gemini 3 Proの72.7%を超えました。

MAI-UIでスマートフォンを操作するデモは以下の動画の3分15秒頃から確認できます。
MAI-UI: a family of foundation GUI agents - YouTube

「列車のチケットを予約し、カレンダー上の会議日程を変更して、日程変更について説明するメッセージを送信する」という複雑なタスクを実行できています。

MAI-UI-2Bはスマートフォンでのローカル実行も可能な小型モデルで、MAI-UI-32Bはクラウドでの実行が想定されています。Tongyi-MAIはモデルの自動選択機能も開発しており、ユーザーの指示を実行する際に軽量なオンデバイスモデルを使うか高性能なクラウドモデルを使うかを自動で判断することが可能。また、MCPにも対応しており、外部ツールを用いてスマートフォンの操作を効率化することもできます。
MAI-UIの各種モデルのうち、MAI-UI-2BとMAI-UI-8BのモデルデータはHugging Faceで公開されています。ライセンスはApache license 2.0です。
Tongyi-MAI/MAI-UI-2B · Hugging Face
https://huggingface.co/Tongyi-MAI/MAI-UI-2B
Tongyi-MAI/MAI-UI-8B · Hugging Face
https://huggingface.co/Tongyi-MAI/MAI-UI-8B
また、MAI-UIの技術レポートは以下のリンク先で閲覧できます。
[2512.22047] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
https://arxiv.org/abs/2512.22047

・関連記事
高速かつ高品質な画像生成AI「Z-Image」をAlibabaが公開 - GIGAZINE
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能 - GIGAZINE
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化 - GIGAZINE
画像をレイヤー分けできるAIモデル「Qwen-Image-Layered」が登場 - GIGAZINE
Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表 - GIGAZINE
Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能 - GIGAZINE
・関連コンテンツ
in AI, 動画, スマホ, Posted by log1o_hf
You can read the machine translated English article Introducing the smartphone automatic ope….







