メモ

「平均値」を信じすぎてはダメな理由とは?


ウェブサービスやソフトウェアの仕様を決定する際は、ユーザーの行動データから「平均値」を算出して「平均的なユーザー像」を導き出すことがよくあります。しかし、投資家のホーウィー・マン氏は複数の事例を挙げて、「平均値」を重要な決定に用いるのは避けるべきと主張しています。

How the US Air Force Ditched the "Average" and Saved Lives
https://mannhowie.com/average-pitfall

マン氏は、平均を用いることが不適であった事例として、1940年代にアメリカ空軍で発生した航空機の開発にまつわる問題をあげています。1940年代のアメリカ空軍では戦闘機を10万時間飛行させるごとに23.6機の戦闘機が損壊していました。事故が発生した機体を分析しても事故につながるような故障が見つかることはほとんどなかったため、空軍は事故の原因を「操縦席がパイロットの体格に合っていない」ことが原因であると考え、「パイロットの体格の平均値」に合わせた操縦席を戦闘機の設計企業に発注しようとしました。


しかし、学生時代にハーバード大学で「学生の手の大きさに関する研究」などに取り組んでいたギルバート・ダニエルズ中尉は、「平均的な体格」に一致するパイロットが必ずしも存在するとは限らないことに気付いており、空軍の決定に異を唱えました。ダニエルズ中尉は、実際に4000人以上のパイロットを対象に「指の長さ」「目から耳までの距離」など140項目以上におよぶ身体測定を実施して各項目の平均値を算出。さらに140項目の中から身長や胸囲などの事故と関連が深いと考えられる項目を抽出し、抽出した全ての項目で「平均値から前後30%」という条件を満たす「平均的な体格のパイロット」の人数を求めました。

上記の分析の結果、「平均的な体格のパイロット」は1人も存在しないことが判明しました。つまり、全パイロットの身体測定データをもとに「平均的な体格のパイロット」に合わせた操縦席を設計しても、その操縦席がジャストフィットするパイロットは存在しないことになるわけです。ダニエルズ中尉は分析結果をもとに「戦闘機の操縦席は、平均的なパイロットではなく、すべてのパイロットに合わせて作られるべき」と進言。その結果、現代の自動車の運転席のような位置調節機能を搭載した操縦席が設計され、損壊する戦闘機は飛行時間10万時間当たり4.3機にまで激減しました。

パイロット4000人の寸法を測って判明した「操作ミスによる墜落事故」が多発した理由とは? - GIGAZINE


マン氏は、上記の1940年代のアメリカ空軍における事例以外に、現代のソフトウェア開発における例も紹介しています。例えば、あるサービスで「ユーザー向け分析サービスの性能向上」というタスクを実行する際に、まずユーザーの行動記録から「1カ月当たりの分析実行回数の平均」が32回であることが分かったとします。


しかし、分析実行回数をグラフ(横軸が実行回数、縦軸がユーザーの割合)に表すと、60%のユーザーは0~9回しか分析を実行しておらず、70~89回分析を実行するユーザーが合計20%以上も存在することが分かります。その一方で、「32回」という平均回数を実行するユーザーはほとんどいないことも分かります。


上記のようなユーザー層を対象に分析機能を開発する場合、「1カ月当たり平均32回利用される」ということを念頭に置いてしまうと、ユーザーの要望とかけ離れた機能を開発してしまう可能性があります。マン氏は、これらの例をもとに「平均値を参考にする場合は、平均値に該当する実例がどれだけあるのか確認するようにしましょう」とアドバイスしています。

この記事のタイトルとURLをコピーする

・関連記事
「イケメンはイヤなやつ」など直観に反する統計結果を生み出す「バークソンのパラドックス」とは? - GIGAZINE

ウェブサイトのパフォーマンスを測定するときに平均値ではなくパーセンタイル値を採用するべき理由 - GIGAZINE

円グラフにバイアスをかけたり時空のゆがみを起こして印象操作を意のままに実現できる「Wonder Graph Generator」 - GIGAZINE

「直感」は信じるべき時と信じるべきでない時が存在する、「信じるべき時」が満たす3条件とは? - GIGAZINE

in メモ, Posted by log1o_hf

You can read the machine translated English article here.