ここまでの記事で紹介してきた正規分布と標準偏差が分かれば、一つのデータから母集団を推定することができるようになる。

これだけだと何のことかよく分からない。

コイントスを例に挙げよう。

まずコインをn回投げたとして表が10回出たとする。
単純に考えて表が出るのは2分の1の確率なので、nは20と推定するのが妥当だろう。

ではnを22と推定するのはどうか?また、34とするのは妥当といえるか?
このように、あるデータ(10回表が出たという結果)から母数nをxと仮定した時、それが正しいかどうかを検証することを統計学では仮説検定という。

95パーセント予言的中区間で検証する

母数nとして妥当といえる値をどこまで許容するか、95パーセント予言的中区間を使って考える。

まず、あるデータ集団の分布を考えた時、平均値から標準偏差2個分以内に分布するデータは約95%を占めると以前の記事で紹介した。

約95%を厳密に95%と考える場合、標準偏差は±1.96個分(95%)以内となり、その範囲を式で表すと次のとおりとなる。

$$-1.96 \leqq \frac{x – μ}{σ} \leqq 1.96$$

x = 推定した母数
μ(ミュー) = 平均値
σ(シグマ) = 標準偏差

先ほどのコインを例を検証していこう。

コインをn回投げたとして表が10回出た。
nを22回と推定した場合、これが妥当な予測だと言えるかを検証する。

上記を言いかえると、コインを22回投げて、表が出る回数を10回と予言した場合、この予言が「95パーセント予言的中」の範囲内に入っているかを検証するのと同じことになる。

まず平均値と標準偏差を求める。

$$μ = \frac{22}{2} = 11$$

$$σ = \frac{\sqrt{22}}{2} = 約2.345$$

次に、先に挙げた95パーセント予言的中区間の不等式表示に値を当てはめる。

$$-1.96 \leqq \frac{22 – 11}{2.345} \leqq 1.96$$

この式を解いていく。

$$11 -1.96 \times 2.345 \leqq x \leqq 11 + 1.96 \times 2.345$$

$$約6.4 \leqq x \leqq 約15.6$$

上記の式から「22回コインを投げた場合、表が出る回数は6.4回以上15.6回以下」と言っておけば95パーセントの確率で的中する。

つまり、表が出る回数(x)を10回と予言した場合、上記の範囲内に入るので、この予言は妥当だと言えることになる。
これを統計学では、10回表が出たコイントスで22回コインを投げたという仮説は棄却することができないと言う。

では次に34回コインを投げたと仮説した場合も検証してみる。

$$μ = \frac{34}{2} = 17$$

$$σ = \frac{\sqrt{34}}{2} = 約2.915$$

$$-1.96 \leqq \frac{34 – 17}{2.915} \leqq 1.96$$

$$17 -1.96 \times 2.915 \leqq x \leqq 17 + 1.96 \times 2.915$$

$$約11.29 \leqq x \leqq 約22.7134$$

この場合、表が出た回数の10は上記範囲から外れているので、母数nを34とする仮説は妥当でないので棄却するべきだ。

まとめ

以上、統計学における仮説検定の概要を簡単に紹介した。

仮説検定の考え方を使えば、絶対とは言えないケースにおいて、95%は的中するだろうという予測を立てることができる。

ビジネスの現場でも上司やクライアントを説得する材料として、95%という数値はかなり信ぴょう性の高い材料となるはずだ。

【中卒でも分かる統計学入門】連載記事一覧

  1. 度数分布表とヒストグラム
  2. 度数分布表から平均値を求める
  3. 色々な平均値の求め方
  4. データの散らばり具合をみる分散と標準偏差
  5. 度数分布表から標準偏差を求める
  6. 標準偏差を理解して偏差値の求め方と意味を知る
  7. Pythonで偏差値を求める
  8. 仮説検定で一つのデータから母集団を推定する ←←現在見ている記事
  9. Pythonで95パーセント信頼区間を求める
  10. 平均に対する区間推定
  11. 母集団からとった標本平均の95パーセント予言的中区間
  12. 標本平均から母平均を区間推定する
  13. 標本分散とカイ二乗分布
  14. カイ二乗分布から母分散を推定する
  15. 標本分散に比例する統計量Wの求め方
  16. 母平均が分からなくても母標準偏差を推定する方法
  17. 統計量Tを求めてt分布を理解する
  18. t分布を使った区間推定