データのばらつき。分散と標準偏差
平均値だけではデータの特徴は十分に掴めないことは前回の平均値のトリックで記述しました。
今回は平均値の次に注目すべきデータのばらつきについて。です。
図はそのうち用意して更新します…
例として、2つのA、Bの箱の中にボールが入ってることをイメージしてください。
Aの箱は130グラム、105グラム、80グラム、110グラム、90グラム、85グラムの6つの玉が入ってます。
Bの箱は98グラム、105グラム、102グラム、97グラム100グラム98グラムの6つの玉が入ってます。
どちらも平均値は100グラムで差はありませんがばらつき具合が違うと思いませんか?
このばらつき具合を調べるためにそれぞれの「偏差(平均値との差)」に注目しましょう。
偏差はあくまでも平均値との差なので、単純に合計すれば当然0になるので、意味のある指標にする為、偏差は2乗する事で正負の符号を無くして、ばらつきの大小をあらわすことができます。
これが分散と呼ばれるものです。
また標準偏差もばらつきの指標になります。標準偏差は分散の平方根で求めることができます。
それぞれを計算すると
Aは分散291.6667、標準偏差17.07825
Bは分散7.66667、標準偏差2.76887
となり、これはAの箱の約7割のボールが100 ± 17.08グラムの範囲内でおさまり、Bの箱の約7割のボールが100 ± 2.7グラムの狭い範囲内でおさまることが分かります。
分散よりも標準偏差の方がより分かりやすいですね。
数学は数式の解き方よりもなぜその数字を求めるのか、を理解した方が成績も上がりそうですね。
これが本質を見抜く力になるんじゃないかなと思います。
本質ついでに次はt検定について書こうと思います。