日本語能力を強化したAI「GPT-OSS Swallow」と「Qwen3 Swallow」を東京科学大の研究チームが公開

2026年2月20日、東京科学大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所(産総研:AIST)の研究チームが、OpenAI GPT-OSSの日本語能力と思考力を強化した推論型大規模言語モデルの「GPT-OSS Swallow」と、Alibaba Qwen3の日本語能力と思考力を強化した推論型大規模言語モデルの「Qwen3 Swallow」を発表しました。
📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。
— Naoaki Okazaki (@chokkanorg) February 20, 2026
継続事前学習+SFT+強化学習を全面刷新し、
日本語性能と推論能力を両立させたオープンなLLMを、
Apache 2.0ライセンスで利用できます。
Qwen3 Swallow: https://t.co/tTRVGHnF4M
GPT-OSS Swallow: https://t.co/L6a2zCjc7i
GPT-OSS Swallow — Swallow LLM
https://swallow-llm.github.io/gptoss-swallow.ja
Qwen3 Swallow — Swallow LLM
https://swallow-llm.github.io/qwen3-swallow.ja
◆GPT-OSS Swallow(20B、120B)
「GPT-OSS Swallow」はGPT-OSS 20Bおよび120Bを起点にして、継続事前学習(Continual Pre-Training; CPT)、教師ありファインチューニング(Supervised Fine-Tuning; SFT)、強化学習(Reinforcement Learning; RL)という3段階の微調整を経て構築されています。なお、GPT-OSSは事後学習を施していないモデルが公開されていないため、事後学習が施されたモデルに対して継続事前学習を行っています。

継続事前学習では、GPT-OSSの日本に関する知識や日本語での対話力を高めながら、英語力・数学・科学・プログラミングといった高度な推論能力を維持または改善することが目的とされました。学習データの半分近くは日本語の大規模ウェブテキストコーパスであるSwallowコーパスの最新版(v3.2)が用いられ、他にSwallowコーパスから質問応答を合成したデータや、日本語版Wikipediaのデータも用いられたとのこと。
以下のグラフは、「GPT-OSS Swallow」の20Bモデル(赤色)、GoogleのGemma 3 27B IT(青色)、AlibabaのQwen3-14B(緑色)、学習元であるgpt-oss-20b(黄色)、さらに規模が大きいgpt-oss-120b(紫色)で、日本語タスクにおける性能を比較したもの。「GPT-OSS Swallow(20B)」の日本語タスクの平均スコアは0.606で、元にしたgpt-oss-20bと比較してほぼすべてのタスクで性能が向上し、総パラメータ数が20B以下のオープンな大規模言語モデルの中で最高性能を達成しました。特に、日本に関する知識量を測定する「JamC-QA」という指標で顕著な改善がみられ、日本語データで学習した成果がうかがえます。

以下のグラフは、「GPT-OSS Swallow」の20Bモデル(赤色)、Gemma 3 27B IT(青色)、Qwen3-14B(緑色)、gpt-oss-20b(黄色)、gpt-oss-120b(紫色)で英語タスクの性能を比較したもの。「GPT-OSS Swallow」は日本語だけでなく英語のタスクでも、総パラメータ数が20B以下のオープンな大規模言語モデルの中で最高性能を達成しました。

「GPT-OSS Swallow」の120Bモデル(オレンジ色)の日本語タスク性能を、AlibabaのQwen3-Next-80B-A3B-Thinking(青色)、学習元のgpt-oss-120b(緑色)、より規模が大きいQwen3-235B-A22B-Thinking-2507(赤色)、現行商用モデルで最も性能が近いOpenAIのGPT-5 mini(紫色)と比較したグラフが以下。「GPT-OSS Swallow(120B)」の日本語タスクの平均スコアは0.642で、総パラメータ数が120B以下のオープンな大規模言語モデルの中で最高性能を達成しました。また、元となったgpt-oss-120bと比較してほぼすべてのタスクで性能向上がみられ、日本の知識量を問うJamC-QAで顕著な向上が確認されました。

以下のグラフは、「GPT-OSS Swallow」の120Bモデル(オレンジ色)、Qwen3-Next-80B-A3B-Thinking(青色)、gpt-oss-120b(緑色)、Qwen3-235B-A22B-Thinking-2507(赤色)、GPT-5 mini(紫色)で英語タスクの性能を比較したもの。GPT-OSS Swallow(120B)は総パラメータ数が120B以下のオープンな大規模言語モデルの中で最高性能を達成しましたが、科学分野では元にしたgpt-oss-120bより性能が悪化したため、今後の課題にしたいとしています。

◆Qwen3 Swallow(8B、30B-A3B、32B)
「Qwen3 Swallow」はQwen3 Swallow 8B、30B-A3B、32Bを起点に継続事前学習(Continual Pre-Training; CPT)、教師ありファインチューニング(Supervised Fine-Tuning; SFT)、強化学習(Reinforcement Learning; RL)の3段階を施したモデルです。

以下のグラフは、Qwen3 Swallow 8B(紫色)の日本語タスク性能を、同じチームが構築した最新の非推論モデルであるLlama 3.1 Swallow 8B Instruct(青色)、DeepSeek R1をLlama 3.1 8Bに蒸留した推論型モデルのDeepSeek-R1-Distill-Llama-8B(緑色)、同規模のオープンな推論型モデルであるOlmo 3 7B Think(オレンジ色)、学習元のQwen3 8B(赤色)と比較したもの。Qwen3 Swallow 8Bの平均スコアは0.557で、総パラメータ数が8B以下のオープンな大規模言語モデルの中で最高性能を達成しました。

Qwen3 Swallow 8B(紫色)の英語タスク性能をLlama 3.1 Swallow 8B Instruct(青色)、DeepSeek-R1-Distill-Llama-8B(緑色)、Olmo 3 7B Think(オレンジ色)、Qwen3 8B(赤色)と比較したグラフが以下。こちらは学習元のQwen3 8Bに性能が及ばず、継続事前学習のレシピにさらなる改善の余地がある可能性が示唆されています。それでも、同規模のDeepSeek-R1-Distill-Llama-8BやOlmo 3 7B Thinkを上回る性能となっています。

総パラメータ数が同程度であるQwen3 Swallow 30B-A3B(緑色)とQwen3 Swallow 32B(赤色)の日本語タスク性能を、それぞれの学習元であるQwen3-30B-A3B-Base(青色)とQwen3-32B(オレンジ色)と比較したグラフがこれ。Qwen3 Swallow 32Bは総パラメータ数が32B以下のオープンな大規模言語モデルの中で最高性能を達成し、日英翻訳以外のタスクで学習元のQwen3 32Bを上回りました。

同じモデルで英語タスク性能を比較したグラフが以下。やはりQwen3 Swallow 32Bは総パラメータ数が32B以下のオープンな大規模言語モデルの中で最高性能を達成しましたが、Qwen3 Swallow 30B-A3Bはベースラインを下回るタスクが多く、平均スコアもベースラインを下回りました。

さらに研究チームは、Qwen3 Swallow 32B(紫色)の日本語タスク性能を同規模の推論型モデルであるOlmo 3 32B Think(青色)、QwQ Bakeneko 32B(緑色)、ABEJA-QwQ32b-Reasoning-Japanese-v1.0(オレンジ色)、ELYZA-Thinking-1.0-Qwen-32B(赤色)と比較したグラフも公開しています。Qwen3 Swallow 32Bは苦手なタスクが少なく、比較したモデルの中で最も高い平均スコアを記録しました。

同じモデルで英語タスク性能を比較したグラフが以下。やはりQwen3 Swallow 32Bは全体的に高いスコアを記録し、日本語と英語の両方に対応した高性能な推論型モデルといえます。

「GPT-OSS Swallow」と「Qwen3 Swallow」のパラメータはApache 2.0ライセンスで公開されており、商用・研究・個人的用途で無料かつ自由にダウンロード・カスタマイズ・ホスティングすることができます。
tokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1 · Hugging Face
https://huggingface.co/tokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1
tokyotech-llm/GPT-OSS-Swallow-120B-RL-v0.1 · Hugging Face
https://huggingface.co/tokyotech-llm/GPT-OSS-Swallow-120B-RL-v0.1
tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2 · Hugging Face
https://huggingface.co/tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2
tokyotech-llm/Qwen3-Swallow-30B-A3B-RL-v0.2 · Hugging Face
https://huggingface.co/tokyotech-llm/Qwen3-Swallow-30B-A3B-RL-v0.2
tokyotech-llm/Qwen3-Swallow-32B-RL-v0.2 · Hugging Face
https://huggingface.co/tokyotech-llm/Qwen3-Swallow-32B-RL-v0.2
・関連記事
iPhoneでも動作する日本語AIモデル「TinySwallow-1.5B」を日本に拠点を置くSakana AIがリリース、大規模言語モデルから知識蒸留して小規模かつ高性能なAIモデルを実現 - GIGAZINE
日本語能力に優れた商用利用可能な大規模言語モデル「Swallow」が公開される - GIGAZINE
NVIDIAが日本語特化の小型AIモデル「Nemotron-Nano-9B-v2-Japanese」を公開、10B以下で最高性能を達成し商用利用可能 - GIGAZINE
日本語を高速生成できる拡散言語モデル「ELYZA-LLM-Diffusion」が登場 - GIGAZINE
日本語のAIで使う大規模言語モデル性能を評価する「オープン日本語LLMリーダーボード」公開 - GIGAZINE
日本語にも対応したテキスト読み上げモデル「Eleven v3」で実際にGIGAZINEの記事を音声化するとこうなる - GIGAZINE
・関連コンテンツ
in AI, Posted by log1h_ik
You can read the machine translated English article A research team from Tokyo University of….







