前回の記事では統計量のうち平均値について取り上げた。
この平均値は、あるデータの集合の中で最もデータが多く集まる位置を知ることができたが、一つの値しか知ることができないので、他のデータがどの程度平均の周りに分布しているのかを知ることができない。
あるスポーツチームの選手を例に挙げよう。
Aチームの平均身長が170cm、Bチームも170cmだったとする。
平均値だけを見ると、どちらも同じ身長であるが、実際はAチームには190cmの選手もいれば150cmの選手もいる。
Bチームは、ほぼ170cmに近い選手のみで構成されている。
これからCチームが、Aチーム、Bチームとそれぞれ対戦するとして、平均値を見ただけでは戦略の立てようがない。
実際は身長のバラツキ具合の大きいAチームと、バラツキの少ないBチームとでは、戦略は大きく違ってくるだろう。
このような時、平均値という統計量だけでは分析材料として乏しいものがあるので、データの散らばり具合をみる分散と標準偏差という統計量が必要になってくる。
コンテンツ
データのばらつき具合を評価する分散を求める
今回は6人1チームのバレーボールチームを例に挙げよう。
Aチームの選手の身長が次のとおりだったとする。
158 | 168 | 171 | 173 | 184 | 185 |
上記6人の身長を算術平均すると、約173.2cmとなる。
表の値を見ると、平均値に近い値もあれば、大きく外れた値もあったりとばらつきが見られる。
このばらつき具合を調べる手段として、統計量の一つである分散を求める方法がある。
平均値との差をあらわす偏差を求める
まず、それぞれのデータに関して、平均値との差を求める。
今回のケースでは平均値の小数点を丸め173とする。
すると以下の表が出来上がる。
-15 | -5 | -2 | 0 | +11 | +12 |
この値を統計学では偏差と言う。
偏差を使って分散を求める
さて、ここから偏差を縮約することで一つの統計量を求めていく。
まず、考えられるのが、足して個数で割る算術平均だが、偏差に対してこの計算をおこなったところで、求められる値はゼロになる。
※今回は平均値を整数化しているので厳密にゼロにはならない。
単純なことで、偏差のプラスとマイナスが互いに相殺し合うことになるためだ。
これでは何も得ることができない。
ではどのようにして縮約するか?
プラスとマイナスが相殺し合うことが分かったので、マイナス符号を打ち消すことができる二乗平均を使うと良い。
$$\sqrt{\frac{x^2 + y^2}{2}}$$
早速計算してみよう。
$$\frac{(-15)^2+(-5)^2+(-2)^2+(0)^2+(+11)^2+(+12)^2}{6}$$
$$= \frac{225 + 25 + 4 + 0 + 121 + 144}{6} = 86.5$$
全ての偏差を二乗して合計し個数で割ると、86.5という値が求まった。
なお、この時点ではまだルートにしていないので二乗平均値ではない。
この二乗平均の計算途中で出てきた86.5という値が、データのばらつき具合を評価する統計量である分散である。
ただし分散は、実際の偏差から見るとかなり値が大きくなってしまっており、このままの状態でばらつき具合を判断するのは難しいだろう。
分散のルートをとり標準偏差を求める
分散のルートをとることで、偏差の二乗平均を求めることができる。
$$\sqrt{86.5} = 9.301$$
この値が統計量の一つ、標準偏差という値だ。
標準偏差は、Standard Deviationの頭文字を取って「S.D.」と略されることが多い。
この約9.3という値なら、偏差がうまく平均化されているように見えるだろう。
この事から、今回例に挙げた6選手の身長は平均値の173cmから前後に約9.3cm程度のばらつきがあることが分かる。
つまり、平均値はデータの分布を代表する統計量なのに対し、標準偏差は平均値を基点にデータがどの程度まで広がっているかを表す統計量ということだ。
まとめ
大きなデータの集合を分析する場合に、平均値しか見ないマーケターやWebコンサルがいたら要注意だ。
アドバイスは当てにならないことが多いだろう。
平均値はあくまで集合データを代表する値の一つで、込み入った分析をする際は標準偏差も確認する必要があるのだ。
平均値と標準偏差をセットで覚えておくことで、一歩進んだマーケティングを行うことができるだろう。
【中卒でも分かる統計学入門】連載記事一覧
- 度数分布表とヒストグラム
- 度数分布表から平均値を求める
- 色々な平均値の求め方
- データの散らばり具合をみる分散と標準偏差 ←←現在見ている記事
- 度数分布表から標準偏差を求める
- 標準偏差を理解して偏差値の求め方と意味を知る
- Pythonで偏差値を求める
- 仮説検定で一つのデータから母集団を推定する
- Pythonで95パーセント信頼区間を求める
- 平均に対する区間推定
- 母集団からとった標本平均の95パーセント予言的中区間
- 標本平均から母平均を区間推定する
- 標本分散とカイ二乗分布
- カイ二乗分布から母分散を推定する
- 標本分散に比例する統計量Wの求め方
- 母平均が分からなくても母標準偏差を推定する方法
- 統計量Tを求めてt分布を理解する
- t分布を使った区間推定