Gemini 3.5 Flashの総パラメータ数は2500億~3000億か、Hacker NewsユーザーがTPU性能から逆算

Googleが発表した高速モデル「Gemini 3.5 Flash」について、エンジニアが集うニュース共有サイトのHacker Newsでは「実際のところどんなモデルなのか」「Flashという名前なのに高くなりすぎではないか」「総パラメータ数とアクティブパラメータ数はどれくらいなのか」といった議論が盛り上がっています。
Gemini 3.5 Flash | Hacker News
https://news.ycombinator.com/item?id=48196570
Gemini 3.5 Flashは、GoogleのGemini 3.5シリーズで最初に提供された軽量・高速モデルです。Googleによると、Gemini 3.5 FlashはGeminiアプリやGoogle検索のAI Mode、Google Antigravity、Gemini API、Google AI Studio、Android Studio、Gemini Enterpriseなどで利用可能で、コーディングやエージェントタスクで高い性能を発揮するとのこと。詳細は以下の記事を読むとよくわかります。
Googleが「Gemini 3.5」シリーズを発表、まずは軽量版の「Gemini 3.5 Flash」から - GIGAZINE

Gemini 3.5 Flashの中身について、Hacker Newsでは興味深い逆算が行われています。ユーザーのeasygenes氏は、GoogleがGemini 3.5 FlashをTPU 8iで提供していること、TPU 8iのメモリ容量・メモリ帯域幅・演算性能、Googleが1秒あたり約280トークンの出力速度を想定していることなどから、Gemini 3.5 Flashの総パラメータ数は約2500億~3000億、アクティブパラメータ数は約100億~160億ではないかと推定しました。
総パラメータ数とは、AIモデル全体が持っている重みの数です。一方で、アクティブパラメータ数とは、1回の推論で実際に使われる重みの数を指します。Mixture of Experts(MoE)のような方式では、モデル全体を毎回すべて動かすのではなく、入力内容に応じて一部の専門領域だけを使います。そのため、総パラメータ数が大きくても、実際に動くアクティブパラメータ数は総パラメータ数よりかなり小さくなる場合があります。
easygenes氏は、TPU 8iのVRAMが288GBであることを前提に、モデルの静的な重みが110GB~150GB、動的な割り当てや圧縮されたKVキャッシュが138GB~178GB程度になるという概算も示しています。KVキャッシュとは、AIが過去の文脈を効率よく参照するために保存しておく中間データのこと。長い会話や長い文書を扱う場合、KVキャッシュのメモリ使用量が大きな制約になります。

ただし、easygenes氏は「これは概算」とも述べています。さらに、TurboQuantのような圧縮・量子化技術を使っている場合、品質を大きく落とさずにモデルをより小さく格納できるため、総パラメータ数は4000億程度まで伸びる可能性もあるとのこと。GoogleはGemini 3.5 Flashの総パラメータ数やアクティブパラメータ数を公式には公開していないため、Hacker News上の推定は「公式値」ではなく、「公開情報からかなり現実的に逆算した数字」という位置づけです。
また、Hacker NewsではGemini 3.5 Flashの価格にも注目が集まっています。モデルごとの100万入力トークンあたりの料金と100万出力トークンあたりの料金は以下の通り。単純計算では、Gemini 3.5 FlashはGemini 3 Flash Previewの3倍の価格ということになります。
| 入力 | 出力 | |
|---|---|---|
| Gemini 2.5 Flash | 0.30ドル (約48円) | 2.50ドル (約397円) |
| Gemini 3 Flash Preview | 0.50ドル (約79円) | 3.00ドル (約477円) |
| Gemini 3.5 Flash | 1.50ドル (約238円) | 9.00ドル (約1430円) |
入力トークンとはユーザーがAIに渡す文章やコードなどを細かく分割した単位で、出力トークンとはAIが生成する回答を細かく分割した単位です。つまり、長い資料を読み込ませたり、長文の回答や大量のコードを生成させたりすると、入力トークンと出力トークンの両方が増えて料金も上がります。
さらに、Gemini 3.5 Flashはトークン単価だけでなく、ベンチマーク全体を実行した場合の総コストも高くなっていると指摘されています。Hacker Newsのコメントでは、Artificial Analysisの評価全体を実行する費用としてGemini 2.5 Flashが172ドル(約2万7000円)、Gemini 3 Flash Previewが278ドル(約4万4000円)、Gemini 3.5 Flashが1552ドル(約25万円)だったと報告されています。Gemini 3.5 FlashはGemini 3 Flash Previewと比べて約5.6倍、Gemini 2.5 Flashと比べて約9倍のコストになったというわけです。
価格が高まったことで、「値段の割に性能は微妙。あらゆる面でGemma4 26B-A4Bの下位互換だ」などの声も登場しました。
実際の使い心地については、「かなり賢いが、出力が盛られやすい」という声が出ています。Simon Willison氏は、Gemini 3.5 Flashに「自転車に乗ったペリカンのSVG」を生成させたところ、非常に細かく装飾された画像が生成された一方で、自転車として重要なペダルと後輪をつなぐ部品が欠けていたと報告しました。さらに、その1回の生成で約13セントかかったとのこと。

Hacker Newsでは生成されたペリカン画像について「暗号資産カンファレンスにいそう」「1992年っぽい」といった冗談も出ています。一方で、より実用的な問題としてSVGやウェブページの改善をAIに頼んだ場合、根本的な間違いを直すよりも背景やボタンや装飾を追加しがちだという指摘もありました。Gemini 3.5 Flashは派手で情報量の多い出力を作るのは得意でも、細部の構造的な誤りを正確に修正するには苦手な模様です。
別のHacker NewsユーザーはGemini 3.5 Flashについて「ワンショットのコーディング推論では非常に賢く、最前線に近い」と評価しつつ、任意のツールを使う長期的なエージェントタスクではあまりうまくいかないと述べています。短い問題を一気に解く力は高いものの、長い作業を段階的に進める用途では、計画書を細かく作り、反復的に実行させる必要があるという声もありました。
Hacker Newsのコメントを見る限りでは、Gemini 3.5 Flashは「Flash」という名前から連想される安価な軽量モデルというより、「非常に高速で高性能だが、価格と出力トークン数も大きくなりやすいモデル」と見る方が実態に近そうです。特に価格面では従来のFlash系モデルより大幅に高くなっており、使いどころを見極める必要がありそうです。
・関連記事
Cursor新モデル「Composer 2.5」はGPT-5.5級のコーディング性能を低コストで狙うAIエージェント - GIGAZINE
「GPT-5.5 Instant」が登場、ChatGPTの新しいデフォルトモデルに - GIGAZINE
コストをなんとわずか17分の1に節約できるDeepSeek V4 Proを使ったClaude Codeエージェントループ「deepclaude」 - GIGAZINE
廃止されるSoraは1日100万ドルもコストがかかっていたという指摘 - GIGAZINE
OpenAIの推論コストはどれくらい高いのか? - GIGAZINE
・関連コンテンツ
in AI, Posted by log1d_ts
You can read the machine translated English article A Hacker News user calculated that the t….







