Appleが音声を分析してユーザーの心拍数を推定するAIモデルの研究を発表、AirPodsの心拍数測定をより正確に進化させられる可能性



Appleが機械学習研究に関する最新の研究論文として、「聴診による心拍数推定のための基礎モデルの隠れた表現」を発表しました。この論文では、心拍数の推定を目的にトレーニングされていないAIモデルでも、心拍数を正確に推定できるかどうかが検証されています。この研究から、AirPodsとAIモデルを駆使することで、将来的に専用センサーなしでも心拍数を測定できるようになる可能性が示唆されました。



研究チームは通常の音声や会話でトレーニングされた6つの人気の高い基礎モデルで、心音図から正確に心拍数を推定することができるかどうかを調査しました。6つの基礎モデルのうち、ひとつは音声文字起こしに使用される「Whisper」です。



調査では、各AIモデルで録音された音声ではなく合計約20時間分の心音図の録音を処理しています。この心音データは公開済みの心音データセットである「CirCor DigiScope Phonocardiogram」の中の一部です。Appleはこの心音データを約5秒の短いクリップに分割し、これを各AIモデルに処理させています。





重要なのはこれらの基礎モデルが健康データ用に設計されたものではないにもかかわらず、結果が驚くほど安定していたことです。調査対象となった基礎モデルのほとんどが、従来の機械学習モデルで長年使用されてきた「手作業で構築された音声特徴量に依存する従来の手法」と同等の精度で心拍数を推定することに成功しました。



また、Appleが社内で独自に構築したAIモデルであるCLAP(Contrastive Language-Audio Pretraining)は、調査対象となった他の基礎モデルの平均パフォーマンスを上回り、総合的に最高のパフォーマンスを発揮したそうです。





Appleはこの結果について「自社製のCLAPモデルの音声エンコーダーからの表現は、様々なデータ分割において最も低い平均絶対誤差(MAE)を達成しており、標準的な音響特徴でトレーニングされたベースラインモデルを上回る性能を示しました」と記しています。



以下は調査対象となった各AIモデル(Whisper、wav2vec2、wavLM)およびCLAPのMAEをまとめた表です。CLAPは他のAIモデルよりも優れたパフォーマンス(MAE:1.88)を記録しています。





また、調査ではAIモデルのパラメーターサイズが大きいほどパフォーマンスが高いというわけではないことも明らかになりました。既存のAIモデルのパラメーターサイズが大きなモデルは、言語に最適化されているためなのか、あまり有用ではない心肺機能情報をエンコードしてしまうケースが報告されています。



今回の研究の重要なポイントのひとつは、従来の信号処理と次世代AIを組み合わせることで、より信頼性の高い心拍数推定が可能になるという点です。つまり、一方の手法がうまく機能しなかった場合でも、もう一方の手法でそのギャップを埋められる可能性が高いことを意味します。



研究チームは今後、健康関連アプリケーション向けにAIモデルの改良を続け、低消費電力デバイスでも動作可能な計量版を開発し、聴く価値がある他の身体関連音も探求していく予定であるとしています。





この研究は臨床的な主張や製品化の約束は一切していません。それでもAppleがこれらのAIモデルをiPhone、Apple Watch、AirPodsに組み込む可能性は十分に考えられます。