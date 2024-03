2024年03月04日 15時12分 ソフトウェア

AIに「『スター・トレック』の船長になりきって」と指示すると数学の問題でより良いパフォーマンスが発揮されることを研究者が発見

by JD Hancock



「大規模言語モデル(LLM)にSFドラマ『スター・トレック』の登場人物になりきるようなプロンプトを入力すると、数学の問題を解く能力が向上した」という論文が、未査読論文リポジトリであるarXivに掲載されました。

あ

[2402.10949] The Unreasonable Effectiveness of Eccentric Automatic Prompts

https://arxiv.org/abs/2402.10949





AIs get better at maths if you tell them to pretend to be in Star Trek | New Scientist

https://www.newscientist.com/article/2419531-ais-get-better-at-maths-if-you-tell-them-to-pretend-to-be-in-star-trek/





VMWareの研究者であるリック・バトル氏とテジャ・ゴッラプディ氏はチャットボットAIのベースとなっている大規模言語モデル(LLM)でプロンプトを微調整した上で、小学生レベルの算数の問題を解かせるベンチマークテスト「GSM8K」を実行しました。



研究チームは、Mistral 7BとLlama 2-13B、Llama 2-70Bという3つのモデルに、60種類の初期プロンプトを入力しました。この初期プロンプトは人間が作成したもので、「あなたは専門の数学者です。これから数学の問題を解きます。深呼吸してよく考えてください」など、AIに特定のキャラクターや考え方を設定するものでした。さらに研究チームは、AIに初期プロンプトを改善させて、より効果的なものにアップグレードするという試みも行いました。





結果としてほぼすべてのケースで、AIが改善したプロンプトによるGSM8Kのスコアが、人間が作成した初期プロンプトによるものより高かったことが判明しました。



特に、Llama2-70BにおけるGSM8Kベンチマークテストで最も高いスコアを叩き出したのは、「『スター・トレック』の船長になりきって答えるように」というプロンプトを与えられた時でした。このプロンプトはAIが自発的に生成したもので、人間が提案した初期プロンプトではなかったとのこと。「スター・トレック」のプロンプトを入力されたLlama2-70Bは、問題の解答を「船長のログ」に記録する形で出力したそうです。



なぜAIが「スター・トレック」の船長になるプロンプトが効果的になると判断したのかは不明ですが、バトル氏は「インターネット上には『スター・トレック』に関する情報が大量に存在しており、正しい情報と一緒によく現れるからではないか」と推測しています。



by JD Hancock



イギリス・スタフォードシャー大学の計算機科学者であるキャサリン・フリック氏は「LLMは結局のところ、重みと確率を組み合わせて最終的な結果を出力するため、彼らがその過程で何をしているのかを知ることは決してありません。1つ確かなことは、このモデルがトレッキーではないということです」とコメントしています。