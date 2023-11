2023年11月20日 21時00分 デザイン

良いグラフと悪いグラフの違いとは?



棒グラフ、円グラフ、ヒストグラム等、データを視覚的に示すためのグラフにはさまざまな種類があります。どのデータをどのグラフで示せばいいのかについて、ジョージア大学応用遺伝子技術センター博士研究員のチェンシン・リー氏が解説しました。



GitHub - cxli233/FriendsDontLetFriends: Friends don't let friends make certain types of data visualization - What are they and why are they bad.

https://github.com/cxli233/FriendsDontLetFriends



◆1:棒グラフ

データの平均、分散、分布を示すときに棒グラフ(左)を用いると、データの分布がわからなくなります。これを避けるために箱ひげ図や散布図を用いるのが良いとのこと。





◆2:サンプルサイズが小さい場合のバイオリンプロット

データの分布を曲線で示したバイオリンプロットは、サンプルサイズが小さい場合に意味をなさなくなるとリー氏は指摘。分布と四分位数は、たとえ基礎となる値が類似していても、サンプルサイズが小さい場合は大きく変動することがあります。分布と四分位数が意味を持つのは、サンプルサイズが大きい場合のみです。





◆3:カラースケール

濃色から淡色までを一列に並べ、片方を最大値、もう片方を最小値に当てはめたグラフ(左上・左下)、あるいは0または平均値を淡色とし、数値が広がるにつれ色を濃くしていくようなグラフ(右上)は良いグラフ。右下のグラフは数値の広がりと色の移り変わりが一致しておらず、悪いグラフとみなされます。





◆4:大量の棒グラフ

特に多因子実験では、左のグラフより右のグラフの方がより視覚的に明確。





◆5. ヒートマップ

ヒートマップ作成時は行または列を並び替え、下のグラフのようにデータをまとめるべきとリー氏。





◆6:外れ値をチェックしたヒートマップ

ヒートマップにおいて外れ値をチェックしないと、2つのデータが全体的に似ているように見える場合があります。しかし、95パーセンタイルでカラースケールを最大にすると、2つを区別できます。





◆7:データ範囲のチェック

対照群(ctrl)と処理群(trt)で3つの化合物を測定したとする実験を想定したグラフ。この実験では化合物1が処理群に強い影響を与えたことが観測されたのですが、下のように範囲を考慮してグラフを可視化しないと影響の程度がわかりません。





◆8ネットワークグラフ

散らばるノードをつないで可視化するネットワークグラフでは、レイアウトによって見栄えが大きく変わります。





◆9:位置ベースと長さベースのグラフの混同

位置を基に値を示した点グラフ、あるいは長さを基に値を示した棒グラフ、その両方を同時に示すとき、混同しないようにすることが必要です。例えば以下の右のグラフは「0」をベースとしておらず、Time point「2」の棒の長さは「1」の棒の長さの約3倍に見えますが、実際には1.6倍程度です。





◆10:円グラフ

分数データを可視化する際に一般的に使われ、分数の合計が100%になるのが普通。円グラフはデータの大小を示すには最適ですが、データ同士を比較するのは困難です。その場合、棒グラフで代用できます。





◆11:同心円状のドーナツグラフ

同心円状のドーナツグラフでデータを示してしまうと、内側のデータほど小さく、外側のデータほど大きく見えてしまいます。棒グラフに示すと一目瞭然で、円グラフに見えるほどのデータの差はないことがわかります。





◆12:赤・緑・虹色スケール

赤緑色覚異常は男性の16人に1人、女性の256人に1人が発症するとされています。そのため、色覚障害のある人間にとって視認しにくい色を使うのは避けるべき。さらに虹色のスケールは、白黒で印刷するとまったく訳がわからなくなるため注意が必要です。





◆13:積み上げ棒グラフの並べ替え

積み重ね棒グラフは比率データを視覚化するのに便利ですが、サンプルデータが大量にある場合、順序よく並べ替えて何がどのくらい多いのか、あるいは少ないのかを視覚的に示すことが大切です。