2026年03月06日 13時15分 AI

GoogleがAI性能比較サービス「Android Bench」を公開、AIの「Android開発への役立ち度」をランク付けし初回はGeminiがトップ

Googleが各種AIの性能をランク付けする「Android Bench」を公開しました。初回のランキングではOpenAIやAnthropicのモデルを抑えてGemini 3.1 Pro Previewがトップの座を獲得しています。

Android Bench | Android Developers
https://developer.android.com/bench

Android Developers Blog: Elevating AI-assisted Android development and improving LLMs with Android Bench
https://android-developers.googleblog.com/2026/03/elevating-ai-assisted-androi.html

Android Benchは各種AIの「Android開発における実世界の問題を解決する能力」を測定してランク付けするサービスです。ベンチマークテストには「オープンソースのAndroidアプリで実際に報告されたIssueと、そのIssueを解決するために提出されたPull Request」が活用されており、AIに実世界でのIssueを提示して問題解決に成功するか否かを確かめます。テストに用いるPull Requestは「GitHubで500以上のスターを獲得したプロジェクト」から選ばれており、2023年以降にマージされたPull Requestを人間の手で選別しています。

記事作成時点では2026年3月4日に実施されたテストの結果が登録されており、1位はGemini 3.1 Pro Preview。2位はClaude Opus 4.6、3位はGPT-5.2-Codexです。Gemini 3.1 Pro Previewは72.4％のIssueを正しく解決することに成功しています。

Android Benchのリーダーボードは随時更新される予定です。また、テストツールが以下のGitHubリポジトリで公開されています。

GitHub - android-bench/android-bench: Android Bench is a framework for benchmarking Large Language Models (LLMs) on Android development tasks. It evaluates an AI model's ability to understand mobile codebases, generate accurate patches, and solve Android-specific engineering problems. · GitHub
https://github.com/android-bench/android-bench