Ai2がビジュアルウェブAIエージェントの「MolmoWeb」をリリース、HTMLを解析するのではなくブラウザのスクリーンショットで動作

アメリカに拠点を置くAI企業のアレン人工知能研究所(Ai2)が、ブラウザを操作・制御するように設計されたAIエージェント「MolmoWeb」を発表しました。
MolmoWeb: An open agent for automating web tasks | Ai2
https://allenai.org/blog/molmoweb
Ai2 Unveils MolmoWeb, an Open-Source Web Agent
https://theaieconomy.substack.com/p/ai2-molmoweb-molmowebmix-model-web-agent
MolmoWebは大規模言語モデルのマルチモーダル能力を応用したツールで、画像を読み取って推論し、タスクを実行することができます。Ai2は「人間が見るのと同じインターフェースを解釈することで、次のステップを予測し、クリック、入力、スクロールといったブラウザ操作を実行します」と紹介しました。
以下でデモ映像が紹介されています。
MolmoWeb in Action - YouTube

最初に与えられたタスクは「WikipediaでAi2を検索し、PRIORチームの経歴をまとめて」というもの。MolmoWebは実際にWikipediaへアクセスして検索ボックスに単語を入力し、検索を実行。PRIORと書かれたセクションを見つけて情報をまとめました。

特徴的なのは、AIが実行した処理が1つ1つ明確に記録されているところです。今回のタスクでは「ゴールはAi2を検索してPRIORチームの情報を得ること。Wikipediaにアクセスして、x=564.5, y=596.2を左クリックした」といった内容が記載されていました。

MolmoWebのデモ版で、テクノロジー系メディア「TechCrunch」の人気記事を検索させてみました。「アクションの説明」として「https://techcrunch.comにアクセス」、「思考」として「ユーザーはTechCrunchの最新ランキングから上位3つの記事を見つけたいと考えています。まずはTechCrunchにアクセスしてみましょう」という処理過程が示されています。
Molmo Web
https://molmoweb.allen.ai/shared/994f1407-918e-4444-b986-33ed8d3e9453

デモ映像からもう1つのタスクを抜粋。「5月10日から5月15日まで、大人2人と子ども1人が宿泊できるサンフランシスコの民泊を探して」というタスクです。MolmoWebはまずAirbnbにアクセスし、サンフランシスコと入力。日付設定画面を開いて「翌月」のアイコンをクリックし、5月の日程を開きます。

ここで正しく日程を選択。

ウェブサイトを実際に操作して人数を選択します。

検索結果を表示させ、「完了」と報告しました。ユーザーはここからさらに「上位2件の価格を教えて」といった追加のタスクを指示できます。

MolmoWebがサポートしている操作は、URLへの移動、画面座標でのクリック、入力欄へのテキスト入力、ページスクロール、ブラウザタブの切り替え、ユーザーへのメッセージ送信など。なお、デモ版ではホワイトリストに登録されたウェブサイトにしかアクセスできません。

MolmoWebはMolmo 2マルチモーダルモデルファミリー(4Bおよび8Bパラメータ)を基盤としたツールで、重み、学習データ、コードが「オープン」で提供されていることが特徴です。モデルと併せて、ウェブエージェントの訓練用に使える大規模データセット「MolmoWebMix」も公開されました。
GitHub - allenai/molmoweb · GitHub
https://github.com/allenai/molmoweb
MolmoWeb - a allenai Collection
https://huggingface.co/collections/allenai/molmoweb
Ai2は「視覚的な情報を読み取る設計により、HTMLやアクセシビリティツリーなどに依存せず、人間と同じようにウェブサイトを操作できます。単一のスクリーンショットはソースコードよりもはるかにコンパクトで、処理時のトークン消費量も少ない可能性があります。また、基盤となるページ構造が変化しても視覚インターフェースは安定しており、モデルがユーザーと同じインターフェースについて推論するため、その挙動は解釈しやすくデバッグも容易です」と説明しました。
一般的なユースケースとしては、毎週決まった時間にウェブサイトから情報を取得することといった日常的なブラウザワークフローの自動化が考えられています。
他にもいくつかのデモ映像が公開されています。以下は、推論過程を確認できるライブラリ。
MolmoWeb Inference Library - YouTube

自動ブラウザワークフロー。
Automatic web workflows with MolmoWeb - YouTube

Claude Codeの実行。
Using MolmoWeb as a Claude Code Skill - YouTube

MolmoWebが未知のタスクに適応する様子。
Adaptability of MolmoWeb - YouTube

合成データの生成です。
MolmoWeb: Generating Synthetic Data - YouTube

・関連記事
小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも - GIGAZINE
翻訳特化のAIモデル「TranslateGemma」をGoogleが公開、日本語も対応 - GIGAZINE
Claudeで自分のPCを操作できる新機能やスマホからPC上のClaudeに指示できる新機能が登場 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1p_kr
You can read the machine translated English article Ai2 has released 'MolmoWeb,' a visual we….







