AIで簡単にウェブページ上でさまざまなタスクを実行できるようになる「PageAgent」を使ってみた

「PageAgent」は、AIを使って自然言語による指示でさまざまなタスクをウェブページ上で実行できるツールです。ブックマークレットとして登録すればさまざまなページ上で使用できるほか、Chrome拡張機能を使えば複数タブにまたがった操作も可能とのことで、実際に使ってみました。
GitHub - alibaba/page-agent: JavaScript in-page GUI agent. Control web interfaces with natural language. · GitHub
https://github.com/alibaba/page-agent
PageAgent - The GUI Agent Living in Your Webpage
https://alibaba.github.io/page-agent/
PageAgentは自然言語のコマンドを入力すれば、それに応じてAIがウェブページ上でさまざまな操作を実行できるツールです。なお、開発者によると無料のデモで使えるのはQwenとDeepSeekのみだとのことで、それ以外のAIエージェントを使いたい場合は自前でAPIを用意する必要があります。
PageAgentのデモページを開くとこんな感じ。

中央の入力フォームに自然言語で指示を入力して、「Run」を押すとAIが指定した操作を行ってくれます。なお、データは中国本土のサーバーを経由するとのことで、個人情報の取り扱いや使用するページには注意が必要です。今回は試しに「このページの内容を400文字で要約して」と入力し、「Run」をクリック。

操作が完了するまでしばらく待ちます。

数秒ほど待つと操作が完了。指示した通りサイトの要約を表示してくれました。

次は「一番下までスクロールして」と指示します。

何も操作しなくても、勝手にページの一番下までスクロールしました。

PageAgentは、ブックマークなどから起動して簡易的な処理を行うブックマークレットとして、別のウェブページで使用することも可能。「Try on Other Sites」をクリックすると、ブックマークレットの登録方法が表示されます。

まずは「Ctrl+Shift+B」のショートカットキーを使うか、「Alt」キーを押してブラウザの表示設定を操作するなどして、ブックマークツールバーを表示させます。

続いて、「PageAgent」という青いボタンをクリック&ドラッグして、表示されたブックマークツールバーまで移動させて離します。

すると、「新しいブックマークを追加」というポップアップが出るので「保存」をクリック。

これでブックマークレットにPageAgentが追加されました。

今回はGIGAZINEの記事でPageAgentを試してみることにします。ページを開いた状態でブックマークツールバーにあるPageAgentをクリックすると、画面下部に入力フォームが表示されました。

今回は「この記事を箇条書きでわかりやすくまとめて」と入力してエンターキーを押します。

すると、「Google Workspace CLI(gws) のまとめ」というタイトルで記事の内容が箇条書きでまとめられました。

また、別の記事で「SNSで共有したいので140文字以内でわかりやすくまとめて」と指示したところ、140文字はやや超過したものの内容を共有しやすくまとめてくれた上に、ハッシュタグまで生成してくれました。なお、PageAgentには制限があり、キーボードショートカットの入力や描画、右クリックといった操作はできず、画像などの視覚的な情報を読み取ることもできない点に注意が必要です。

PageAgentはスクロールやクリックなどの操作も可能とのことで、GIGAZINEのトップページから「一昨日の記事一覧を表示して」と指示してみました。なお、このレビューを行ったのは2026年3月6日のことであり、「一昨日」は3月4日にあたります。

すると、PageAgentは自動でページ内を調査し、ページ下部にある過去記事検索フォームに気が付きました。なお、スクリーンショットに映っている矢印やマークなどはPageAgentが自動で生成したものです。

正確な日付を入力したわけではありませんでしたが、PageAgentはしっかり日付を一昨日に変更。

指定した通り、一昨日の記事一覧が表示されました。

さらにPageAgentは、Chrome拡張機能だと複数ページにまたがった操作も可能とのこと。公式ページ下部の「Install from Chrome Web Store」をクリック。

「Chromeに追加」をクリック。

「拡張機能を追加」をクリック。

これでChrome拡張機能としてPageAgentが追加されました。

PageAgentのアイコンをクリックすると、画面右側に作業画面が表示されました。

GIGAZINEのトップページを開き、「最近の古代ローマに関する記事を探して新規タブで開いて」と指示してみます。

すると、最近の古代ローマに関連する記事を探し出して新規タブで開いてくれました。

記事を開くとこんな感じ。

続いて、別タブでXのホーム画面を開いた状態にして、「この記事の内容をまとめて、URL付きでXに投稿して」と指示してみます。

数分ほど待ちましたが、最終的に「申し訳ありませんが、Xへの投稿は技術的な制限(Xのコンテンツ編集可能div要素へのテキスト入力に対応していないため)により完了できませんでした。上記の要約とURLをコピーして、手動でXに投稿してください。」というメッセージが表示されました。指示によっては実行できないこともあるようで、使いこなすには何ができて何ができないのかを見極めることも重要です。

なお、PageAgentの開発者はAlibabaで勤務している人物であり、このプロジェクトはAlibabaのオープンソース組織の下で公開されているとのこと。また、勤務時間中にメンテナンスを行うこともありますがプロジェクト自体は個人的なものであり、MITライセンスで公開されており中身を監査できるようになっています。
Full transparency: I work at Alibaba and published this under Alibaba's open-sou... | Hacker News
https://news.ycombinator.com/item?id=47266064
・関連記事
WebLLMを使ってクラウドもAPIキーも不要なAIブラウザ自動化ツール「On-device AI browser」 - GIGAZINE
Seleniumの作者によるAIと人間のためのブラウザ自動化「Vibium」 - GIGAZINE
Googleがブラウザ操作に特化したAIモデル「Gemini 2.5 Computer Use」をプレビューリリース、フォーム入力やログイン操作をAIエージェントが自動で実行 - GIGAZINE
ChromeをAIエージェント搭載ブラウザにできる拡張機能「BrowserBee」レビュー、ChatGPT・Gemini・ClaudeのAPIに対応しOllama経由でローカルAIモデルも使える - GIGAZINE
OpenAIが「GPT-5.4」をリリース、人間より上手にPCを操作できる「エージェント性能に優れた最も有能で効率的なフロンティアモデル」 - GIGAZINE
OpenAIのAI搭載ブラウザ「ChatGPT Atlas」が登場、完全統合されたAIがユーザーの行動を記憶し情報収集からサイト操作まで実行可能 - GIGAZINE
・関連コンテンツ
in AI, ネットサービス, レビュー, Posted by log1h_ik
You can read the machine translated English article I tried using 'PageAgent,' which allows ….






