レビュー

AIモデルでブラウザを自動操作できる「Browser-Use」、オープンソースで開発され自然言語で簡単に指示可能


ブラウザ操作を自動化するにはPlaywrightSeleniumを使って操作手順を細かく指示する必要がありました。そこでLLMが画面内容を判断し、自然言語の指示からクリック・入力・検索を実行できるオープンソース「Browser-Use」が公開されています。

Browser Use - The way AI uses the internet
https://browser-use.com/


browser-use/browser-use: Make websites accessible for AI agents. Automate tasks online with ease.
https://github.com/browser-use/browser-use

◆Browser Useを利用するメリット
実際にブラウザを操作することでAIが正確に情報を得ることが可能になります。

例としてGoogle Geminiを利用しGIGAZINEの「試食」カテゴリの最新記事のタイトルを3件分取得してみます。


「ピザポテト」・「マックフルーリー」・「麻婆たまご丼」の3件の返答。


しかし、実際は以下の画像の通り「二代目ベビーボティーバーガー」・「絶品牛重」・「マルちゃんでかまるバリシャキ辛もやし味噌ラーメン激辛」が実際のその時点での最新記事でした。AIがもっともらしく間違った情報を返答するハルシネーションが起こり、間違った情報を得ることになります。


Browser Useで同じ指示を与えてみます。指示内容を記入し「Run Task」をクリック。


ページ内にリモートブラウザが起動し、指定された手順の内容を実際に見ながら操作するような動きで、情報を探している様子が確認できます。最新記事3件分のタイトルも正しく取得できています。


同じ操作をPlaywrightを利用して実現しようとすると、ページのhtmlの構造を把握しXPathなどの要素を一字一句間違えずに書く必要がありますが、Browser Useだと自然言語で操作を書くだけで実現できるのも大きなメリットです。

クラウド版においては「78.0%」の成功率という統計が示されており、クラウド内のリモートブラウザがより人間らしい動きをしてBot判定を回避しているとのこと。


ログイン作業を事前に手動で行うことで認証を通した状態での作業にも対応できます。

◆Browser Use登録方法
クラウドサービス版の登録方法です。公式サイトの「Get Started」をクリック。


登録フォームが表示されるので「Email」にメールアドレス、「Password」および「Repeat Password」にパスワードを入力して「Sign Up」をクリック。


確認メールが登録したメールアドレスに届くので「Verify my email」をクリック。


再度ブラウザで確認画面が表示されるので「Verify」をクリック。


アンケートは「Skip」で飛ばすこともできますが、回答することで無料枠を増やすことができます。「How did you find us?」など、いくつかの質問に答えていきます。


登録が完了すると初期画面が表示されるので画面上部にある「previous version」への切り替えリンクをクリック。


プレビュー版では最新の専用モデル「Browser Use 2.0」を試すことが可能です。


なお、サイトの利用規約で自動データ収集ツールの利用を制限しているケースがあるので、利用には慎重な判断が必要です。

この記事のタイトルとURLをコピーする

・関連記事
OpenAIのコーディング支援AI「Codex」でChromeを直接操作可能に - GIGAZINE

WebLLMを使ってクラウドもAPIキーも不要なAIブラウザ自動化ツール「On-device AI browser」 - GIGAZINE

Seleniumの作者によるAIと人間のためのブラウザ自動化「Vibium」 - GIGAZINE

LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し - GIGAZINE

無料でローカルPC内のAIエージェントと自動連携して動くオープンソースのブラウザ「BrowserOS」、Perplexity Cometの代わりに使えてOpenAI・Claude・Gemini・OllamaのAIモデルも使用可能 - GIGAZINE

AIエージェントを余計なアプリのインストール不要でブラウザ上で直接実行可能にする「Wasm agents」をMozillaが公開、WebAssemblyを使ってブラウザ内でPythonベースのエージェントを高速実行 - GIGAZINE

in AI,   ソフトウェア,   レビュー, Posted by darkhorse_logmk

You can read the machine translated English article Browser-Use, an AI model that automates ….