ソフトウェア

無料でローカルPCの操作を自動化できる「UI-TARS-desktop」について現状を確認してみた


ByteDanceが公開したマルチモーダルGUIエージェントスタックであるUI-TARS-desktopは、自然言語による指示と画面のスクリーンショットをセルフホスティングした視覚言語モデル(VLM)に入力することによりローカルPCの操作を安全に自動化することができるアプリであるとのことなので、実際のところ使えそうなのかを確認してみました。

bytedance/UI-TARS-desktop: The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra
https://github.com/bytedance/UI-TARS-desktop

公式GitHubによるとUI-TARS-desktopはElectron製のデスクトップアプリであり、以下の特徴があるとのこと。

・VLMを利用した自然言語による制御
・スクリーンショットと画像認識のサポート
・正確なマウス・キーボード操作
・クロスプラットフォーム対応(Windows・macOS・ブラウザ)
・リアルタイムなフィードバックとステータス表示
・プライベートでセキュアな完全ローカル処理

導入方法についてクイックスタートを確認したところ、リリースページからインストーラーをダウンロードできると書かれていますが、記事作成時点では見当たらなかったのでリポジトリをクローンして開発モードで実行することにします。UI-TARS-desktopをWindows PCに導入する場合、前提として以下がインストール済みである必要があります。

・ブラウザ(Chrome・Firefox・Edge)
Git for Windows
Node.js(v20以降)
pnpm

なお、公式GitHubの記述によるとUI-TARS-desktopはシングルモニター構成にのみ対応しており、マルチモニター構成では一部のタスクが正常に動作しない場合があるとのことなので注意が必要です。

まず「Git Bash」を起動し、以下のコマンドを実行してUI-TARS-desktopのリポジトリをクローンします。

git clone https://github.com/bytedance/UI-TARS-desktop.git

次に、以下のコマンドを実行して依存関係をインストールします。

cd UI-TARS-desktop
pnpm install

インストールの完了後、以下のコマンドを実行するとUI-TARS-desktopが起動します。

pnpm run dev:ui-tars

起動直後の画面には「Computer Operatopr」と「Browser Operator」の2つの機能が表示されています。なお過去にはリモートオペレーターの機能もあったそうですが、記事作成時点では サポート終了していました。


画面左下にある「Settings」をクリックすると表示されるポップアップにて「VLM Settings」を選択すると使用するVLMを選択できます。


VLMプロバイダーは以下の4つから選択することができます。

・Hugging Face for UI-TARS-1.0
・Hugging Face for UI-TARS-1.5
・VolcEngine Ark for Doubao-1.5-UI-TARS
・VolcEngine Ark for Doubao-1.5-thinking-vision-pro


ただ、選択肢が上記の4つしかないのであればクラウドベースのVLMプロバイダーしか設定できないということになるため、特徴として挙げられていた「プライベートでセキュアな完全ローカル処理」と現実との間に不一致が見られるといった印象を受けました。

UI-TARS-desktopは非常に興味深いアプリではありますが、ドキュメントがあまりメンテされているように見受けられず、またリポジトリの更新もあまり活発ではないようなので、記事作成時点では残念ながら使える要素を見出せませんでした。とはいえコンセプトは魅力的なので今後再び活発に更新されるようになれば改めて検証してみたいと感じました。

この記事のタイトルとURLをコピーする

・関連記事
AlibabaがClaude Opus 4.6に匹敵するAIモデル「Qwen3.7-Plus」を発表 - GIGAZINE

CodexがWindowsの自動操作に対応、自動でペイントで絵を描いたりブラウザを操作したりできる - GIGAZINE

AIモデルでブラウザを自動操作できる「Browser-Use」、オープンソースで開発され自然言語で簡単に指示可能 - GIGAZINE

ChatGPTのスマホアプリにCodexへの指示機能が追加される、PCを開かずともCodexでエージェントコーディングやPC自動操作を実行可能 - GIGAZINE

ClaudeのWord・Excel・PowerPoint拡張機能が一般公開される&OutlookをClaudeで動かす拡張機能も登場 - GIGAZINE

「アプリを切り替えるたびにAIに指示し直す手間」をなくすアップデートがClaudeのExcel自動操作ツールとPowerPoint自動操作ツールに追加される - GIGAZINE

無料で簡単にAIエージェントでブラウザやファイルの自動操作ができる「Agent Zero」、ChatGPT・Claude・Geminiと連携できローカルAIも使用可能 - GIGAZINE

in AI,   ソフトウェア, Posted by log1c_sh

You can read the machine translated English article I checked the current status of 'UI-TARS….