ソフトウェア

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに


Appleが、Apple製デバイス向けのパーソナルAI「Apple Intelligence」のベンチマーク結果を公開しました。

Introducing Apple’s On-Device and Server Foundation Models - Apple Machine Learning Research
https://machinelearning.apple.com/research/introducing-apple-foundation-models


Apple Intelligenceは2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演にて発表されました。基調講演のうち、Apple Intelligenceに関する内容は下記の記事で確認できます。

Appleが新たなパーソナルAIの「Apple Intelligence」を発表、OpenAIとの提携でSiriがChatGPTをサポート - GIGAZINE


Apple IntelligenceはiPhoneなどのデバイス上で実行できる約30億パラメーターのデバイス版モデルと、より大規模で高性能なサーバー版モデルの2つに分かれています。いずれのモデルについても、学習元となるデータの収集を含め、トレーニングや最適化などモデル作成における全ての段階についてAppleが責任を持って管理しており、プライバシー基盤の上で構築されているとのこと。


Apple Intelligenceの基礎モデルはAppleのAXLearnフレームワークでトレーニングされており、学習元となるデータについてはライセンスされたデータが使用されています。また、データをフィルターしてクレジットカード情報など個人を特定できる情報を削除したり、下品な言葉や低品質のコンテンツを除外したりしたと述べられています。

基礎モデルはユーザーの日常活動にあわせてファインチューニングされていますが、モデルのさまざまなレイヤーに「プラグイン」できるアダプターを使用することで特定のタスク処理能力を高めているとのこと。


今回発表されたApple Intelligenceのモデルについて、他のモデルとのベンチマーク比較結果が公開されています。デバイス版モデルの比較対象は「Gemma」の2Bモデルと7Bモデルのほか「Mistral-7B」「Phi-3-mini」など小規模なオープンモデルで、サーバー版モデルの比較対象は「DBRX-Instruct」「Mixtral-8x22B」など大規模なオープンモデルおよびOpenAIの商用モデル「GPT-3.5-Turbo」「GPT-4-Turbo」です。

下図は実世界を模したさまざまなプロンプトに対する回答を人間が「どちらが優れているか?」で評価した結果。デバイス版モデルでは全ての比較対象よりも明確に「Appleのモデルが優れている」という回答が上回り、サーバー版モデルでもDBRX-Instruct・GPT-3.5-Turbo・Mixtral-8x22Bに対しては上回りましたがGPT-4-Turboとの比較ではGPT-4-Turboに軍配が上がりました。


セーフティを回避しようとする敵対的プロンプトに対して有害なコンテンツを出力する可能性を比較すると、Apple Intelligenceのモデルはデバイス版・サーバー版ともに比較対象の中で最も有害なコンテンツを生成しにくいという結果になりました。


有害なコンテンツを生成させようとするプロンプトに対する回答に限定すると、Apple Intelligenceモデルの回答は比較対象よりも大幅に好ましいと評価されています。


また、命令にどれほど追従できたかを測定するIFEvalベンチマークではデバイス版モデルが比較対象の中で最高のスコアを記録し、サーバー版モデルはGPT-4-Turboと同等のスコアを記録しています。


下図は要約および作文という文章作成能力のベンチマーク結果です。デバイス版モデル・サーバー版モデルともに最高レベルの性能を発揮できていることがわかります。


なお、言語モデルや拡散モデル、コーディングモデルなどApple Intelligenceのより広範なモデルファミリーについて近いうちに詳細情報を公開する予定とのことです。

この記事のタイトルとURLをコピーする

・関連記事
IQ100超えを達成したAIモデルのClaude 3は「いい性格」を持つようにトレーニングされている - GIGAZINE

AIモデルに「キルスイッチ」を義務付けるカリフォルニア州のAI安全法案はAIスタートアップの撤退を余儀なくするだけでなくオープンソースモデルなどに損害を与えるとして非難が集まる - GIGAZINE

「2025~2026年にはAIモデルの学習費用が1兆円を超えて人類に脅威をもたらすAIが登場する」とAI企業・AnthropicのCEOが予言 - GIGAZINE

既存のAIモデルを組み合わせて超高性能モデルを作る手法を日本のAI企業「Sakana AI」が開発、進化的アルゴリズムで膨大な組み合わせを試行し人間には発想困難な高性能LLMや画像生成モデルを作成可能 - GIGAZINE

大規模言語モデルを使って組織内の全データを検索する時にはどのような前処理を行うと効率的なのか? - GIGAZINE

in ソフトウェア, Posted by log1d_ts

You can read the machine translated English article here.