2023年05月10日 15時00分 ソフトウェア

OpenAIが「言語モデルに言語モデルを説明」させるデモンストレーションツールを公開



ChatGPTのような大規模言語モデル(LLM)は、動作の仕組みが分かりにくいことから「ブラックボックス」と呼ばれることが多く、AIの危険性や予測の困難さを唱える議論に拍車をかけています。LLMの理解を進めるため、OpenAIがLLMを用いてLLMの機能を解明するツールを公開しました。



Language models can explain neurons in language models

https://openai.com/research/language-models-can-explain-neurons-in-language-models



OpenAI’s new tool attempts to explain language models’ behaviors | TechCrunch

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/



前提として、LLMは脳と同様の「ニューロン」で構成されています。そのため、例えば「マーベルコミック」に関するテキストシーケンスを実行すると、マーベルコミックに登場するヒーローに関するニューロンが活性化され、ヒーローやそれに関連する言葉が出力される可能性が高くなります。なお、このデモでは、記事作成時点で最新のモデルであるGPT-4を用いてGPT-2の動作の評価を行っています。





テキストのサンプルは「マーベルコミック」を含めて合計で12個用意されています。





GPT-2の出力とニューロンの活性が示されたら、これをGPT-4に見せて説明を生成させます。前述の「マーベルコミック」のテキストシーケンスの結果について、GPT-4は「映画、キャラクター、エンターテインメントに関する言及」との説明を付与しました。





次に、GPT-4の説明の正確さを判断するため、GPT-4にもテキストシーケンスを与えて、ニューロンの挙動をシミュレーションさせます。





そして、シミュレーションされたニューロンの活性(上段)と実際のニューロンの活性(下段)を比較して採点します。今回の場合、スコアは「0.34」でした。





12個のサンプルの中でも、スコアは「0.01」から「0.86」まで差がありました。





OpenAIでスケーラブルアライメントチームを率いるJeff Wu氏は、「この方法を用いると、基本的にすべてのニューロンについて、それが何をしているかについての予備的説明を自然言語で導出し、その説明が実際の挙動とどの程度一致しているかのスコアを得ることができます」と話しました。



実際に、この方法でWu氏らはGPT-2の30万7200個のニューロン全てについて説明を生成することができました。こうしたツールは、AIの偏りや有害性を減らすなどしてLLMの性能を向上させるのに使えるだろうと、研究者らは期待しています。





しかし、それが目に見える形で役立つようになるには、まだ長い道のりがあるのも事実です。今回の例では、30万7200個のニューロンの説明のうち、確信を持って説明できたと言えるものは約1000個に過ぎなかったとのこと。



Wu氏は、「説明のほとんどはスコアが非常に低いか、実際のニューロンの挙動を説明できていませんでした。つまり、ニューロンの多くは何が起きているのかを知るのが非常に難しい形で活動しています。例えば、5つか6つの異なるものに対して活性化するのに、パターンを見つけることはできないという具合です。また、識別できるパターンがあったとしても、GPT-4にそれを見つけることができないこともありました」と話しました。





GPT-2でさえ理解が難しいのであれば、より複雑で規模の大きいLLMや、随時インターネットから情報を得ることができるモデルの理解はなおさら困難です。ただし、後者については、インターネットを閲覧できても基本的なメカニズムはあまり変わらないと、Wu氏は考えています。なぜなら、そのニューロンがなぜ特定の検索ワードで検索したのかや、どうして特定のサイトにアクセスしたのかを見るために多少手を加えれば済むからです。



Wu氏は、「今回公開したツールによって、第三者が構築して貢献できるような、自動化された方法で解釈可能性に取り組む上での有望な道のりが開かれることを願っています。そして、最終的にはニューロンが何に反応しているかだけでなく、そのモデルの全体的な動作、つまり『どのような種類の回路を計算しているのか』や『どのニューロンがどのニューロンにどんな影響を与えているのか』などについて、適切な説明が得られるようになるのが理想です」と述べました。