概要
重回帰分析で、説明変数の中心化、あるいはある定数だけずらした場合の結果を比較する。
重回帰分析で変数をいじると?の続きの記事です。
注意
行列とベクトルが太字になっていないので、寛容な心を持って読み替えてください。
設定
この後使う記号たち
※よくある重回帰と同じなので、知っているなら読み飛ばしてOK。
※前回の記事と同じです。
計画行列 X(n行p+1列)
1列目は定数項のため、要素が全て1。2列目からp+1列目はp個の説明変数にあたるベクトル。
はそれぞれ次のような列ベクトル。
目的変数ベクトル y(n行1列)
重回帰のモデル
の最小二乗解
予測値
決定係数
AIC
説明変数をずらす
説明変数をずらすのは、xに右から適当な行列Mをかける操作になる。具体的には、列基本変形の行列を考えればよい。 Mはこんな感じになる。
$$ M= \begin{pmatrix} 1 & k_{1} & k _{2} & \cdots & k _{p} \\ 0 & 1 & 0 & \cdots & 0 \\ 0 & 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & 1 \\ \end{pmatrix} $$
とすると、中心化する変形になる。
実際にそうなっていることを確認してみる。 次のような計画行列Xと、列基本変形の行列Mで計算する。
$$ X= \begin{pmatrix} 1 & x _{1,1} & x _{1,2} \\ 1 & x_{2,1} & x _{2,2} \\ 1 & x_{3,1} & x _{3,2} \\ 1 & x_{4,1} & x _{4,2} \\ 1 & x_{5,1} & x _{5,2} \\ \end{pmatrix} $$
$$ M= \begin{pmatrix} 1 & - \bar{x} _{1} & - \bar{x} _{2} \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ \end{pmatrix} $$
XMの積は次のようになる。
$$ XM= \begin{pmatrix} 1 & x _{1,1} - \bar{x} _{1} & x _{1,2} - \bar{x} _{2} \\ 1 & x_{2,1} - \bar{x} _{1} & x _{2,2} - \bar{x} _{2} \\ 1 & x_{3,1} - \bar{x} _{1} & x _{3,2} - \bar{x} _{2} \\ 1 & x_{4,1} - \bar{x} _{1} & x _{4,2} - \bar{x } _{2} \\ 1 & x_{5,1} - \bar{x} _{1} & x _{5,2} - \bar{x} _{2} \\ \end{pmatrix} $$
確かに中心化された。
Xの変数を列ごとに適当にk足したものを とおくと、
と書ける。
次のようなモデルについて考える。
このモデルの偏回帰係数、決定係数、AICについて考える。
偏回帰係数
前回の記事と同様に展開できる。
Mの逆行列
ってどんな行列だろうか。
3行3列のMを例に、掃き出して計算してみよう。
$$ \begin{pmatrix} 1 & k _{1} & k _{2} & | & 1 & 0 & 0 \\ 0 & 1 & 0 & | & 0 & 1 & 0 \\ 0 & 0 & 1 & | & 0 & 0 & 1 \\ \end{pmatrix} $$
2行目を 倍して1行目に足す。
$$ \begin{pmatrix} 1 & 0 & k _{2} & | & 1 & - k _{1} & 0 \\ 0 & 1 & 0 & | & 0 & 1 & 0 \\ 0 & 0 & 1 & | & 0 & 0 & 1 \\ \end{pmatrix} $$
3行目を 倍して1行目に足す。
$$ \begin{pmatrix} 1 & 0 & 0 & | & 1 & - k _{1} & - k _{2} \\ 0 & 1 & 0 & | & 0 & 1 & 0 \\ 0 & 0 & 1 & | & 0 & 0 & 1 \\ \end{pmatrix} $$
が計算できた。
$$ M ^{-1} = \begin{pmatrix} 1 & - k _{1} & - k _{2} \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ \end{pmatrix} $$
つまりは 定数項の偏回帰係数が変化するが、それ以外の偏回帰係数は変化しない。
決定係数
前回の結果を考えると、計算するまでもないが一応計算する。 冗長なので飛ばしてもよい。
予測値 は次のようになる。
予測値は全く変化しない。
決定係数 は次のように計算できる。
決定係数は説明変数をずらしても変化しない。
AIC
説明変数を定数倍したときのAICをとおく。
説明変数をずらしても、が変わらないのでAICは変化しない。
説明変数も目的変数もずらす
Xに加えて、yもずらす。yを変換し、以下のようなベクトルを考える。mはスカラー
なら、yを中心化していることを表す。
このとき、次のモデルについて考えてみる。
このモデルの偏回帰係数、決定係数、AICについて考える。
偏回帰係数
ここで突然というのが出てくる。
いくつか計算してみた感じ、最初の要素がmで、それ以外の要素が0なベクトルになりそうな感じ。
残念ながら、自分程度の数学力ではこれに一般的な証明を与えることができなかった。以下でが中心化行列の場合に限って、具体的な値を求める。
Mが中心化行列の時のの値
Mが中心化行列の時、は次で表される(p+1)行(p+1)列のブロック行列になる。 ただし、は の偏差積和行列である。(nで割ると共分散行列)
$$ X _{k} ^{T} X _{k} = \begin{pmatrix} n & 0 \\ 0 & S _{x} \\ \end{pmatrix} $$
つまり、この逆行列は
$$ \left( X _{k} ^{T} X _{k} \right) ^{-1} = \begin{pmatrix} \frac{1}{n} & 0 \\ 0 & S _{x} ^{-1} \\ \end{pmatrix} $$
次に、 だが、これは次のような列ベクトルになる。
先頭の要素がnで、それ以外はすべて0である。
よって、
となる。 これで中心化行列に限った場合には証明できたはず。
偏回帰係数の続き
結局、は
となり、yから増減させた値だけ、定数項の偏回帰係数が変化する。
決定係数
予測値 は次のようになる。
予測値はmだけ増減する
よって、決定係数 は次のように計算できる。
決定係数は説明変数と目的変数をずらしても変化しない。
AIC
目的変数もずらしたときのAICをとおく。
説明変数をずらしても、yとが同じだけずれるのでAICは変化しない。
結論
好きなだけ中心化したらいいんじゃないだろうか。