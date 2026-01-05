2026年01月05日 10時48分 AI

スマホ自動操作AI「MAI-UI」が登場、Gemini 3 Proより上手にスマホを操作可能



AlibabaのAI研究チームであるTongyi-MAIがスマートフォンを自動で操作できるAI「MAI-UI」を開発しました。ベンチマークテストではGemini 3 Proを超えるスマートフォン操作能力を示しています。



MAI-UI: Foundational GUI Agent for Mobile Intelligent Assistance

https://tongyi-mai.github.io/MAI-UI/



GitHub - Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.

https://github.com/Tongyi-MAI/MAI-UI?tab=readme-ov-file



MAI-UIは「MAI-UI-2B」「MAI-UI-8B」「MAI-UI-32B」「MAI-UI-235B-A22B」というパラメーター数の異なる4種類のモデルとして開発されています。「MAI-UI-2B」「MAI-UI-8B」「MAI-UI-32B」と他社製モデルのベンチマーク結果を比較したグラフが以下。MAI-UI-32BはScreenSpot-Proというベンチマークテストで73.5％というスコアを記録し、Gemini 3 Proの72.7％を超えました。





MAI-UIでスマートフォンを操作するデモは以下の動画の3分15秒頃から確認できます。



MAI-UI: a family of foundation GUI agents - YouTube





「列車のチケットを予約し、カレンダー上の会議日程を変更して、日程変更について説明するメッセージを送信する」という複雑なタスクを実行できています。





MAI-UI-2Bはスマートフォンでのローカル実行も可能な小型モデルで、MAI-UI-32Bはクラウドでの実行が想定されています。Tongyi-MAIはモデルの自動選択機能も開発しており、ユーザーの指示を実行する際に軽量なオンデバイスモデルを使うか高性能なクラウドモデルを使うかを自動で判断することが可能。また、MCPにも対応しており、外部ツールを用いてスマートフォンの操作を効率化することもできます。



MAI-UIの各種モデルのうち、MAI-UI-2BとMAI-UI-8BのモデルデータはHugging Faceで公開されています。ライセンスはApache license 2.0です。



Tongyi-MAI/MAI-UI-2B · Hugging Face

https://huggingface.co/Tongyi-MAI/MAI-UI-2B



Tongyi-MAI/MAI-UI-8B · Hugging Face

https://huggingface.co/Tongyi-MAI/MAI-UI-8B



また、MAI-UIの技術レポートは以下のリンク先で閲覧できます。



[2512.22047] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

https://arxiv.org/abs/2512.22047

