前回までの記事でExcelを使った重回帰分析について学んできたが、今回は重回帰分析をおこなううえで注意するべき点について紹介する。
重回帰分析では似たような説明変数を使わないようにする
重回帰分析では説明変数の数が多ければ多いほど、正確な予測ができると思いがちだが、説明変数間に強い相関関係があると、適切な結果を得ることができなくなる。
例えば、商品価格を目的変数とした場合に、商品の容量と重量をそれぞれ説明変数に使おうと考えるのは良くない。
容量と重量には非常に強い正の相関関係があるためだ。
このように似たような説明変数を複数使っている状態を、多重共線性という。
多重共線性が見られる場合は、いずれかの説明変数を削除し、相関関係の弱い別の説明変数を探す必要がある。
VIFを求めて説明変数が適切かどうかを考える
どの程度の相関関係が見られると多重共線性にあたるかを考えるとき、VIF(分散拡大要因)という値がよく使われ、一般的にVIFが10を超えると多重共線性の問題があると言われる。
ここからは、Excel(Googleスプレッドシート)を使ってVIFを求める流れを紹介していく。
ExcelでVIFを求める方法
まず、それぞれの説明変数間の相関係数を求めるところから始める。
相関係数の求め方についての詳細は以下の記事で取り上げている。
今回も例として以下の賃貸物件のデータを使っていく。

まず、以下のような行列を用意しておく。

次に、それぞれのセルでCORREL関数を使って相関係数を求めていく。

全てのセルを埋めると以下のようになる。

続いて、MINVERSE関数を使って、相関係数の行列の逆行列を求める。

MINVERSE関数は配列数式なので、一つのセルに関数を入力すると以下のように関連セルに値が展開される。

こうして求められた赤字の部分が、それぞれの説明変数のVIFとなる。

今回は駅歩、築年数、面積と、全てにおいてVIFの値が10より下回っているので、説明変数として妥当であるということになる。
Excelではここで紹介した便利な関数により、このような統計学的な計算も簡単におこなえるので、重回帰分析において説明変数の妥当性を手軽に調べることができる。