前回、統計学の基礎として縮約と呼ばれる手法のうち、度数分布表とヒストグラムによる分析方法を紹介した。
今回は作成した度数分布表から平均値を求める方法を紹介していく。
コンテンツ
もう一つの縮約「統計量」
度数分布表やヒストグラムは、データの特徴を一目で判断できるというメリットを持っているが、グラフを見る人によって受けとる印象が異なることもあるというデメリットも合わせ持っている。
例えば、ある階級にデータが集中したヒストグラムを見たときに、これがどのくらい集中しているのか、言葉で表現しづらいといったケースがある。
また、度数分布表、ヒストグラム、どちらをとっても資料として大きなスペースを要することもデメリットとして挙げられる。
こういったデメリットを解消するために、データの特徴を端的に表す縮約の方法がある。
それが「統計量」だ。
統計量はデータの特徴を一つの数字に要約することで、代表的なもので平均値、分散、標準偏差といったものがある。
今回はこの中から平均値について取り上げていく。
平均値とは
この記事を見ている人なら、学校の授業やビジネスの現場で誰でも一度は「●●の平均」といった値を算出したことがあるだろう。
例えば「168、174、166」といった身長のデータがある場合、データの合計を足してデータ数で割った値「(168 + 174 + 166) / 3 = 169.33」が平均値となる。
度数分布表から平均値を求める方法
前回の記事で作成した度数分布表を使って、平均値を求める方法を紹介する。
上記のような度数分布表がある場合、まず各階級に対し階級値×相対度数の値を求める。
このようになるはずだ。
最後に算出した階級値×相対度数の値を合計する。
※4.32 + 12.32 + …といった具合だ。SUM関数を使うと良いだろう。
すると上記の表の場合の合計は170となり、平均値を算出することができる。
サンプルデータ100件の値を合計して100で割る、単純な計算法だと結果は「170.13」となるが、度数分布表では生データが削除されてしまっているので若干の誤差はでる。
ただしこのズレは実用に耐え得るレベルのもので、このことから度数分布表を作成しても平均値にはさほど影響を与えないということが分かる。
まとめ
先述のとおり、度数分布表はデータの特徴をざっくり判断するのに適しているが、具体的な値で情報の共有をおこなう現場ではあまり適さない。
そのため、度数分布表から平均値という統計量を求める方法は知っておくべき分析手法の一つだ。
【中卒でも分かる統計学入門】連載記事一覧
- 度数分布表とヒストグラム
- 度数分布表から平均値を求める ←←現在見ている記事
- 色々な平均値の求め方
- データの散らばり具合をみる分散と標準偏差
- 度数分布表から標準偏差を求める
- 標準偏差を理解して偏差値の求め方と意味を知る
- Pythonで偏差値を求める
- 仮説検定で一つのデータから母集団を推定する
- Pythonで95パーセント信頼区間を求める
- 平均に対する区間推定
- 母集団からとった標本平均の95パーセント予言的中区間
- 標本平均から母平均を区間推定する
- 標本分散とカイ二乗分布
- カイ二乗分布から母分散を推定する
- 標本分散に比例する統計量Wの求め方
- 母平均が分からなくても母標準偏差を推定する方法
- 統計量Tを求めてt分布を理解する
- t分布を使った区間推定