ソフトウェア

AIに「『スター・トレック』の艦長になりきって」と指示すると数学の問題でより良いパフォーマンスが発揮されることを研究者が発見

by JD Hancock

「大規模言語モデル(LLM)にSFドラマ『スター・トレック』の登場人物になりきるようなプロンプトを入力すると、数学の問題を解く能力が向上した」という論文が、未査読論文リポジトリであるarXivに掲載されました。

[2402.10949] The Unreasonable Effectiveness of Eccentric Automatic Prompts
https://arxiv.org/abs/2402.10949


AIs get better at maths if you tell them to pretend to be in Star Trek | New Scientist
https://www.newscientist.com/article/2419531-ais-get-better-at-maths-if-you-tell-them-to-pretend-to-be-in-star-trek/


VMWareの研究者であるリック・バトル氏とテジャ・ゴッラプディ氏はチャットボットAIのベースとなっている大規模言語モデル(LLM)でプロンプトを微調整した上で、小学生レベルの算数の問題を解かせるベンチマークテスト「GSM8K」を実行しました。

研究チームは、Mistral 7BLlama 2-13B、Llama 2-70Bという3つのモデルに、60種類の初期プロンプトを入力しました。この初期プロンプトは人間が作成したもので、「あなたは専門の数学者です。これから数学の問題を解きます。深呼吸してよく考えてください」など、AIに特定のキャラクターや考え方を設定するものでした。さらに研究チームは、AIに初期プロンプトを改善させて、より効果的なものにアップグレードするという試みも行いました。


結果としてほぼすべてのケースで、AIが改善したプロンプトによるGSM8Kのスコアが、人間が作成した初期プロンプトによるものより高かったことが判明しました。

特に、Llama2-70BにおけるGSM8Kベンチマークテストで最も高いスコアを叩き出したのは、「『スター・トレック』の艦長になりきって答えるように」というプロンプトを与えられた時でした。このプロンプトはAIが自発的に生成したもので、人間が提案した初期プロンプトではなかったとのこと。「スター・トレック」のプロンプトを入力されたLlama2-70Bは、問題の解答を「艦長のログ」に記録する形で出力したそうです。

なぜAIが「スター・トレック」の艦長になるプロンプトが効果的になると判断したのかは不明ですが、バトル氏は「インターネット上には『スター・トレック』に関する情報が大量に存在しており、正しい情報と一緒によく現れるからではないか」と推測しています。

by JD Hancock

イギリス・スタフォードシャー大学の計算機科学者であるキャサリン・フリック氏は「LLMは結局のところ、重みと確率を組み合わせて最終的な結果を出力するため、彼らがその過程で何をしているのかを知ることは決してありません。1つ確かなことは、このモデルがトレッキーではないということです」とコメントしています。

この記事のタイトルとURLをコピーする

・関連記事
フルHD化が難しい「スター・トレック」を自作のAIでフルHD&4Kにアップコンバートした猛者が登場 - GIGAZINE

Raspberry Piで「スター・トレック」のトライコーダーを忠実に再現するプロジェクト「Picorder」 - GIGAZINE

長辺わずか0.015ミリメートルの「自力で泳ぐスター・トレックの宇宙船」が3Dプリンターで生成される - GIGAZINE

Google DeepMindが数学オリンピックレベルの幾何学問題を解けるAI「AlphaGeometry」を発表、人間の金メダリストに近い性能を発揮 - GIGAZINE

OpenAIが4度目のブレイクスルーとなる数学ができるAI「Q*(キュースター)」で汎用人工知能開発の飛躍を目指す、アルトマンCEO解任騒動の一因か - GIGAZINE

算数や計算が苦手な対話型チャットAIに数学的推論を正しく行わせるには途中のステップをチェックしながら訓練するのがよいとOpenAIが提案 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.