GPT・Llama・Grokなどさまざまな大規模言語モデルのアーキテクチャを図示した「LLM Architecture Gallery」

OpenAIのGPTシリーズやxAIのGrok、MetaのLlamaなどさまざまな大規模言語モデルが存在しますが、これらの構造を図示した「LLM Architecture Gallery」がオンラインで公開されています。
LLM Architecture Gallery | Sebastian Raschka, PhD
https://sebastianraschka.com/llm-architecture-gallery/
The Big LLM Architecture Comparison
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
AI研究者兼エンジニアであるセバスチャン・ラシュカ氏は、OpenAIが2019年に発表したGPT-2と2025年に発表されたDeepSeek V3やLlama 4を見比べると、モデルの構造的な部分がとてもよく似ていると指摘。「こうした細かな改良の裏で、私たちは本当に画期的な変化を目にしてきたのでしょうか?それとも単に同じアーキテクチャの基盤を磨き上げているだけなのでしょうか?」と疑問を提起しています。
大規模言語モデルのパフォーマンスに影響する要素にはデータセットやトレーニング手法、ハイパーパラメータなどさまざまなものがありますが、これらは大規模言語モデルによって大きく異なり、多くの場合は十分に文書化されていないため比較が困難だとのこと。
そのためラシュカ氏は、大規模言語モデルの開発者がどのような取り組みをしているのかを知るには、アーキテクチャ自体の構造的変化を検証することが役立つと主張。大規模言語モデルのアーキテクチャを図示した「LLM Architecture Gallery」を作成しました。
LLM Architecture Galleryにはさまざまな大規模言語モデルが掲載されており、クリックすると図を見ることができます。記事作成時点で図が作成されているのは以下のモデルです。
・Llama 3 8B
・OLMo 2 7B
・DeepSeek V3
・DeepSeek R1
・Gemma 3 27B
・Mistral Small 3.1 24B
・Llama 4 Maverick
・Qwen3 235B-A22B
・Qwen3 32B
・Qwen3 4B
・Qwen3 8B
・SmolLM3 3B
・Kimi K2
・GLM-4.5 355B
・GPT-OSS 120B
・GPT-OSS 20B
・Grok 2.5 270B
・Qwen3 Next 80B-A3B
・MiniMax M2 230B
・Kimi Linear 48B-A3B
・OLMo 3 32B
・OLMo 3 7B
・DeepSeek V3.2
・Mistral 3 Large
・Nemotron 3 Nano 30B-A3B
・Xiaomi MiMo-V2-Flash 309B
・GLM-4.7 355B
・Arcee AI Trinity Large 400B
・GLM-5 744B
・Nemotron 3 Super 120B-A12B
・Step 3.5 Flash 196B
・Nanbeige 4.1 3B
・MiniMax M2.5 230B
・Tiny Aya 3.35B
・Ling 2.5 1T
・Qwen3.5 397B
・Sarvam 105B
・Sarvam 30B

たとえば「Llama 4 Maverick」をクリックすると、アーキテクチャを示した図が表示されました。図を拡大するにはクリック。

拡大した図はこんな感じ。画面右上の「View in article」をクリックすると、各モデルについてのラシュカ氏による解説を読むことができます。

ラシュカ氏はさまざまな大規模言語モデルについて、その他のモデルと比較しながら共通点や違いを解説しています。

たとえばLlama 4はDeepSeek V3と非常によく似たアーキテクチャを採用しており、いずれも「Mixture-of-Experts(MoE)」という機械学習アプローチを採用しているとのこと。主な違いは、Llama 4ではTransformerモデルの注意メカニズムの効率を高める方法としてGrouped-Query Attention(GQA)を採用しているのに対し、DeepSeek V3ではMulti-Head Latent Attention(MLA)を採用している点だとのこと。

GPT-OSSとQwen3は類似したコンポーネントを使用していますが、さまざまな処理を行うTransformerブロックの数がGPT-OSSは24個であるのに対しQwen3は48個となっているほか、埋め込み次元などにも違いがあります。

Grok 2.5は全体的にかなり標準的な構造をしているものの、MoEを構成する個別のサブネットワーク(エキスパート)の数が8個と、Qwen3の128個と比べてかなり少数だという点が特徴です。新しい設計ではより多くのエキスパートを使用することが推奨されているため、Grokは古いトレンドを反映しているとのこと。また、Grokは追加のSwiGLUモジュールを常時稼働する共有エキスパートとして使用している点も興味深いとラシュカ氏は説明しました。

・関連記事
LLMの仕組みとは? - GIGAZINE
大規模言語モデルの仕組みが目で見てわかる「Transformer Explainer」 - GIGAZINE
ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ - GIGAZINE
大規模言語モデルがどのように言葉をトークンに分解して処理するのかを視覚化する「Meaning Machine」 - GIGAZINE
ChatGPTのような高性能言語モデルを生み出した技術はどんな仕組みなのか?をAI企業のエンジニアが多数の図解でゼロから解説 - GIGAZINE
LLMはいつどのような時に使うべきか - GIGAZINE
AIの頭の中ではどのように情報が処理されて意思決定が行われるのかをAnthropicが解説 - GIGAZINE
・関連コンテンツ
in AI, ネットサービス, Posted by log1h_ik
You can read the machine translated English article The 'LLM Architecture Gallery' illustrat….






