標本分散とカイ二乗分布【中卒でも分かる統計学入門】 | プログラマーになった「中卒」男のブログ

これまでいくつかの記事で推定の話をしてきたが、いずれの例も標準偏差がすでに分かっているという前提で話を進めてきた。

標準偏差は分散のルートをとった統計量ということは、以前説明した。
ということは分散を求めることができれば、自然と標準偏差も分かるはずだ。

今後、正規母集団の中からn個のデータを観測し、その標本分散を求める方法を学んでいく。

だがそれを学ぶに当たって、カイ二乗分布を知る必要があるので、今回の記事では標本分散と合わせて紹介する。

標本分散とは

観測データ（標本）から算出した分散を標本分散といい、以下の手順で計算する。

標本平均を計算する
標本データから標本平均を引き、各標本の偏差を算出する
各偏差を2乗して合計し、標本数で割る

上記で導き出した標本分散のルートをとれば標準偏差を求めることができる。

カイ二乗分布とは

まず標準正規分布という言葉の意味を理解する必要がある。
これは、平均が0で標準偏差が1の正規分布を表すものである。

「標準正規分布する母集団から観測したn個のデータの二乗の合計」

上記の統計量を分析したものをカイ二乗分布という。

式で表すと次のとおり。

$$V = x1^2 + x2^2 … + xn^2$$

この統計量は観測するたびに当然違う値を取るはずで、その分布をヒストグラムで表してみると、以下のグラフが出来上がる。

kは観測したデータの個数で自由度とも言う。
k=nの時の分布を、自由度nのカイ二乗分布と言う。

ちなみにこのグラフはJupyter NotebookでPythonを書いて描画したものだ。
サンプルとしてPythonのコードも紹介しておこう。

from scipy import stats
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 10, 1000)
flg, ax = plt.subplots(1, 1)

linestyles = [':', '--', '-.', '-']
k_arr = [1, 2, 3, 4]

for k, ls in zip(k_arr, linestyles):
    ax.plot(x, stats.chi2.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)

plt.xlim(0, 10)
plt.ylim(0, 1.0)
 
plt.legend()
plt.show()

さらに、例として自由度3のカイ二乗分布がもつ各階級の相対度数を紹介しておく。
この表からは、2以上のデータが出る確率は57.24%以上、10以上が出る確率は1.85%以上ということが分かる。

V	V以上の出る相対度数
0	1
1	0.8012
2	0.5724
3	0.3916
4	0.2614
5	0.1717
6	0.1116
7	0.0718
8	0.0460
9	0.0292
10	0.0185

また、カイ二乗分布をするVは必ず0以上の値しか出てこないということも重要なポイントだ。
そして0の近辺にVは多く分布するが、0から離れれば離れるほど相対度数は小さくなっていくという性質を持つ。

標本分散とは

カイ二乗分布とは

【中卒でも分かる統計学入門】連載記事一覧