これまでいくつかの記事で推定の話をしてきたが、いずれの例も標準偏差がすでに分かっているという前提で話を進めてきた。
標準偏差は分散のルートをとった統計量ということは、以前説明した。
ということは分散を求めることができれば、自然と標準偏差も分かるはずだ。
今後、正規母集団の中からn個のデータを観測し、その標本分散を求める方法を学んでいく。
だがそれを学ぶに当たって、カイ二乗分布を知る必要があるので、今回の記事では標本分散と合わせて紹介する。
標本分散とは
観測データ(標本)から算出した分散を標本分散といい、以下の手順で計算する。
- 標本平均を計算する
- 標本データから標本平均を引き、各標本の偏差を算出する
- 各偏差を2乗して合計し、標本数で割る
上記で導き出した標本分散のルートをとれば標準偏差を求めることができる。
カイ二乗分布とは
まず標準正規分布という言葉の意味を理解する必要がある。
これは、平均が0で標準偏差が1の正規分布を表すものである。
「標準正規分布する母集団から観測したn個のデータの二乗の合計」
上記の統計量を分析したものをカイ二乗分布という。
式で表すと次のとおり。
$$V = x1^2 + x2^2 … + xn^2$$
この統計量は観測するたびに当然違う値を取るはずで、その分布をヒストグラムで表してみると、以下のグラフが出来上がる。
kは観測したデータの個数で自由度とも言う。
k=nの時の分布を、自由度nのカイ二乗分布と言う。
ちなみにこのグラフはJupyter NotebookでPythonを書いて描画したものだ。
サンプルとしてPythonのコードも紹介しておこう。
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0, 10, 1000)
flg, ax = plt.subplots(1, 1)
linestyles = [':', '--', '-.', '-']
k_arr = [1, 2, 3, 4]
for k, ls in zip(k_arr, linestyles):
ax.plot(x, stats.chi2.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)
plt.xlim(0, 10)
plt.ylim(0, 1.0)
plt.legend()
plt.show()
さらに、例として自由度3のカイ二乗分布がもつ各階級の相対度数を紹介しておく。
この表からは、2以上のデータが出る確率は57.24%以上、10以上が出る確率は1.85%以上ということが分かる。
V | V以上の出る相対度数 |
0 | 1 |
1 | 0.8012 |
2 | 0.5724 |
3 | 0.3916 |
4 | 0.2614 |
5 | 0.1717 |
6 | 0.1116 |
7 | 0.0718 |
8 | 0.0460 |
9 | 0.0292 |
10 | 0.0185 |
また、カイ二乗分布をするVは必ず0以上の値しか出てこないということも重要なポイントだ。
そして0の近辺にVは多く分布するが、0から離れれば離れるほど相対度数は小さくなっていくという性質を持つ。
【中卒でも分かる統計学入門】連載記事一覧
- 度数分布表とヒストグラム
- 度数分布表から平均値を求める
- 色々な平均値の求め方
- データの散らばり具合をみる分散と標準偏差
- 度数分布表から標準偏差を求める
- 標準偏差を理解して偏差値の求め方と意味を知る
- Pythonで偏差値を求める
- 仮説検定で一つのデータから母集団を推定する
- Pythonで95パーセント信頼区間を求める
- 平均に対する区間推定
- 母集団からとった標本平均の95パーセント予言的中区間
- 標本平均から母平均を区間推定する
- 標本分散とカイ二乗分布 ←←現在見ている記事
- カイ二乗分布から母分散を推定する
- 標本分散に比例する統計量Wの求め方
- 母平均が分からなくても母標準偏差を推定する方法
- 統計量Tを求めてt分布を理解する
- t分布を使った区間推定