• HOME
  • 統計・解析
  • 代表値を求めよう!〜中央値と最頻値(平均値だけじゃないんです!)〜

統計・解析 | 代表値を求めよう!〜中央値と最頻値(平均値だけじゃないんです!)〜

POST:2018.07.27

前回、データを見る上での代表値の一つである「平均値」について書きました。

今回は、残りの代表値である「中央値」と「最頻値」です。

そもそも、なぜ代表値が3つもあるのでしょうか?

というのも、これら3つの代表値はそれぞれに得意・不得意が存在していて相互に補完しながらデータを見ていく方がいいからです。

例によって例から

とある学校のテストの結果です。

Aさん・・・50点
Bさん・・・30点
Cさん・・・90点
Dさん・・・70点
Eさん・・・80点

という結果であったとしましょう。

まずは平均値を求めてみます。
平均値は「全ての数字を足して、数値の個数で割る」ことで算出されます。
したがって

50+30+90+70+80=320
320÷5=64

この64点が「平均値」となります。

平均値は、全ての数字を使って出すので「全体感」を捉えるには直感的にわかりやすいです。
ところが、「外れ値」と呼ばれる「異常な値」「突出した値」が出現するとデータとしての信頼度が揺らぎます。
大きすぎる値や小さすぎる値が含まれると、その値にかなり引っ張られてしまうというのが欠点なんですね・・・

極端に言うと、「50+50=100」と「100+0=100」という結果を見てみると
人間的には全く別の結果と捉えますが「平均値」は共に50です。

何となく、理解してもらえれば大丈夫です。

中央値とは

中央値とは、値を小さい順番にならべてちょうど真ん中にくる値のことです。

先程の例ですと

30
50
70
80
90

という数値が出てきました。
小さい順で見ると、真ん中に位置しているのは「70」ということになります!
これが中央値です。

中央値は、「外れ値」の影響を受けにくいというのが強み。
なにせ単純に「真ん中」ですからね。
(余談ですが、データの個数が偶数個の場合、中央に位置する2つの値の平均で算出します)

しかし、あまりデータの比較には向いていません。
先程のテストの次のテストで獲得した点数が

35
60
70
82
95

と全体として得点がアップしたとします。
平均点は68.4点となりますが、中央値は「70」のまま。
このように、正しく比較できないケースが出てきますので要注意です。

最頻値とは

最頻値とは、最も頻繁に出てくる値のことです。
最頻値も「外れ値」の影響を受けにくいです。

今回の例は話を単純にするために、数値の個数が少ないため最頻値がありません笑
と、このように「データ数が少ないとあまり意味がない」というのが最頻値の大きな弱点となります。

場合によっては2回しか出ていないのに「最頻値」となったりしてしまうので、最頻値を取るときはある程度データ数が大きい場合が有効です。

まとめ

代表値について色々と書きました。
普段よく使うのは平均値くらいでしょうが、平均値の弱点を補うためにも中央値と比較したり、最頻値を見たりと複合的に検証するのが一番いいと思います。
平均値、中央値、最頻値を見比べてようやく全体像も把握できるのかな。

何はともあれ、「平均値」だけに検証を頼るのはよくないです! ということだけ覚えていただいて、次回はこれもよく聞く「偏差値」についてでも!

この記事のタグ

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

ページトップへ戻る