Geminiのツール呼び出し機能を蒸留してスマホでも動作する軽量モデルに仕上げた「Needle」が登場、開発者はスマホ向けAIエージェントの構築に役立つとアピール

AI企業のCactus Computeが2600万パラメーターのツール呼び出しAIモデル「Needle」を公開しました。
GitHub - cactus-compute/needle: 26m function call model that runs on incredibly small devices · GitHub
https://github.com/cactus-compute/needle
needle/docs/simple_attention_networks.md at main · cactus-compute/needle · GitHub
https://github.com/cactus-compute/needle/blob/main/docs/simple_attention_networks.md
Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model | Hacker News
https://news.ycombinator.com/item?id=48111896
NeedleはGoogle製AIモデル「Gemini-3.1-Flash-Lite」のツール呼び出し機能を蒸留して開発されたモデルです。一般ユーザー向けのデバイス上でローカル動作し、プリフィル処理は毎秒6000トークン、デコード処理は毎秒1200トークンという高速実行が可能です。
Needleの事前学習は16台のTPU v6eを用いて27時間かけて実行され、事後学習はGeminiで生成したツール呼び出しデータセットを用いて45分で完了したのとのこと。
Needleの開発者であるHenry Ndubuaku氏は「私たちは『低価格帯スマートフォンでも動作するAIエージェント』を開発する取り組みがほとんど行われていないことに不満を持っていました。分析調査の結果、AIエージェントはツール呼び出しに基づいて構築されており、大規模なモデルは過剰であることが分かりました」とコメントし、Needleがツール呼び出しに特化することでスマートフォンなどのエッジデバイスで動作する軽量性を確保できたとアピールしています。
Needleは以下のリンク先で配布されています。ライセンスはMIT Licenseを採用しています。
Cactus-Compute/needle · Hugging Face
https://huggingface.co/Cactus-Compute/needle
Cactus Computeはスマートフォン用のAI実行アプリ「Cactus Chat」も開発しています。Cactus Chatの使い方は以下のリンク先にまとめています。
AndroidスマホでもiPhoneでもAIモデルをローカルで実行してチャットできる無料アプリ「Cactus Chat」レビュー - GIGAZINE

なお、NeedleはGemini-3.1-Flash-Liteを蒸留して開発したことが公言されていますが、GoogleはGeminiからの抽出行為や蒸留行為を禁止しています。
Gemini API 追加利用規約 | Google AI for Developers
https://ai.google.dev/gemini-api/terms?hl=ja

・関連記事
Googleが「Gemini 3.1 Flash Lite」を発表、高速で安価なコスパ重視AIモデル - GIGAZINE
IBMがAIモデル「Granite 4.1」シリーズを公開、プロンプト追従やツール呼び出しが得意なオープンモデル - GIGAZINE
スマホ自動操作AI「MAI-UI」が登場、Gemini 3 Proより上手にスマホを操作可能 - GIGAZINE
スマホでローカル動作するGoogle製オープンソースAIモデル「Gemma 3n」登場、今すぐスマホで使う方法はコレ - GIGAZINE
・関連コンテンツ
in AI, Posted by log1o_hf
You can read the machine translated English article Needle, a lightweight version of Gemini&….







