1100万時間の動画で学習したPC操作AI「FDM-1」が登場、動画の学習方法を根本から見直して2時間の動画を100万トークンに圧縮可能&自動運転車にも応用できる

サンフランシスコに拠点を置くStandard IntelligenceがAIモデル「FDM-1」を発表しました。FDM-1は1100万時間に及ぶ動画を学習しており、「世界初の汎用的なコンピューターアクションモデル」としてアピールされています。
The First Fully General Computer Action Model | blog
https://si.inc/posts/fdm1/
PCを操作可能なAIは既に製品化されていますが、ほとんどのAIは「PCのスクリーンショットをベースに開発された視覚言語モデル(VLM)に強化学習を施す」という手法で作られており、CADアプリの操作などの長時間にわたるタスクが苦手です。また、VLMの開発時にはスクリーンショットに適切な説明を付与する作業(アノテーション)が必要であり、アノテーションのために大量の人間と多くの時間を要することになります。
FDM-1はVLMベースのPC操作AIとは異なり、インターネット上に存在する「ビデオ編集の様子を記録した動画」や「コーディングのライブ配信」などからなる合計1100万時間分の動画を用いて学習しています。また、動画のアノテーションを自動化するために「IDM」というシステムも開発されました。

実写動画のアノテーションを自動実行するのは難しいですが、PCを操作する動画の場合は「画面に『h』と表示されたということは『hキーを押した』ということだ」と言ったように画面上の変化と操作内容を1対1で紐付けられるため、比較的容易に自動アノテーションシステムを構築できます。FDM-1を開発する際は、最初に4万時間分の動画を業者に委託して人力でアノテーションし、そのデータからIDMを開発して1100万時間の動画を自動アノテーションしました。

さらに、PC操作特有の状況に合わせたエンコーダーも開発。これらの工夫によって、FDM-1では3万6000フレームの動画を20万トークンで表現できるという高効率性を確保することに成功しました。同じ20万トークンだとGeminiでは775フレーム、Claudeでは162フレームしか扱うことができません。開発チームは「約2時間の30fps動画を100万トークンに圧縮可能」と述べ、FDM-1の効率の高さをアピールしています。

少ないトークンで長い動画を扱えるようになったことで、FDM-1はCGアプリやCADアプリなどの長時間の前後関係が重要なアプリケーションも自動実行できるようになりました。

また、車の操作を矢印キーでの操作に置き換えることで、FDM-1を自動運転システムに転用することもできます。

Standard Intelligenceは「FDM-1によって、PC操作AIは『学習データに制約される状態』から『計算量に制約される状態』に移行することができる」と述べ、成果をアピールしています。
・関連記事
日本語特化の小型AIモデル「LFM2.5-1.2B-JP」を含むオンデバイス重視のオープンモデル「LFM2.5」シリーズが登場 - GIGAZINE
OpenAIが「GPT-5.3-Codex」をリリース、前世代より高性能かつ高速でコーディングだけでなくオフィス作業でも能力を発揮 - GIGAZINE
PC操作AI「Cowork」をAnthropicが発表、ファイルの作成から削除まで自動で実行可能 - GIGAZINE
PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1o_hf
You can read the machine translated English article Introducing the PC operation AI 'FDM-1' ….







