べんきのにっき

いろいろと垂れ流します。

重回帰分析で変数をいじると?

主な内容

重回帰分析で説明変数と目的変数に適当な数をかけたら結果はどう変わるかと言う話。

かなり基本的な事項の確認なので、目新しい話ではない。

注意

行列とベクトルが太字になっていないので、寛容な心を持って読み替えてください。

設定

この後使う記号たち

※よくある重回帰と同じなので、知っているなら読み飛ばしてOK。

計画行列 X(n行p+1列)

1列目は定数項のため、要素が全て1。2列目からp+1列目はp個の説明変数にあたるベクトル。

 \displaystyle
X= ( 1_{n} , x_{1} , \cdots ,x_{p} )

 1_{n} , x_{ \cdot} はそれぞれ次のような列ベクトルである。


1_{n} = ( 1,1, \cdots ,1 )^{T} \\
x_{1} = ( x_{1,1} , x_{1,2} , \cdots , x_{1,n} )^{T} \\
\vdots \\
x_{p} = ( x_{p,1} , x_{p,2} , \cdots , x_{p,n} )^{T}

目的変数ベクトル y(n行1列)

 y

重回帰のモデル

 y=X \beta +\varepsilon

 \beta の最小二乗解  \hat{ \beta}

 \displaystyle
\hat{\beta} = \left( X^{T}X \right)^{-1} X^{T}y

予測値  \hat{y}

 \hat{y} =X \hat{\beta} = X \left( X^{T} X \right)^{-1} X^{T} y

決定係数  R^{2}

 \displaystyle  R^{2} = 1- \frac{||y - \hat{y} ||^{2} }{ || y - \bar{y} ||^{2} }

AIC

 \displaystyle
AIC = n \left( \mathrm{log} 2 \pi + 1 + \mathrm{log} \frac{1}{n} || y - \hat{ y } ||^{2} \right) + 2(p+2)

説明変数を定数倍する

説明変数を定数倍するのは、xに右から適当な対角行列Dをかける操作になる。 ただし、定数項の部分はそのまま。Dの成分はこんな感じ。

 \displaystyle
D= diag( 1, k_{1},\cdots,k_{p} )

Xの変数を列ごとに適当にk倍したものを  X_{k} とおくと、

 X_{k}=XD と書ける。

このとき、モデル

 \displaystyle
y= X _{k} \beta_{2} + \varepsilon

の最小二乗解  \hat{\beta_{2} } はどうなるだろうか。  \displaystyle \hat{ \beta }  \displaystyle \hat{ \beta_{2} } の関係や決定係数、AICはどうなるだろうか。

偏回帰係数

 \displaystyle
\hat{ \beta_2 } = \left( X _{k} ^{T} X _{k} \right)^{-1} ( X _{k} )^{T}y

 \displaystyle
= \left( (XD)^{T} XD \right)^{-1} (XD)^{T}y

 \displaystyle
= \left( DX^{T} XD \right)^{-1} DX^{T}y

 \displaystyle
= D^{-1} \left( X^{T} X \right)^{-1} D^{-1} DX^{T}y

 \displaystyle
= D^{-1} \left( X^{T} X \right)^{-1} X^{T} y

 \displaystyle
= D^{-1} \hat{ \beta }

ここで、Dが対角行列であるから、 D^{-1} は単に対角要素の逆数である。 つまるところ、説明変数をa倍すると、その係数が  \frac{1}{a} 倍になる。

決定係数

この場合、予測値 \hat{y_{2}} は次のようになる。

 \displaystyle
\hat{y_{2}} = X _{k} \hat{\beta_{2}}

 \displaystyle
=XD D^{-1} \beta

 \displaystyle
=X \hat{ \beta } = \hat{y}

予測値は全く変化しない。

わざわざ計算するのも馬鹿馬鹿しい気がするが、このときの決定係数  R_{2}^{2}は次のように計算できる。

 \displaystyle
R_{2}^{2} = 1- \frac{ || y - \hat{ y_{2} } ||^{2} }{ || y - \bar{y} ||^{2} }

 \displaystyle
= 1- \frac{ || y - \hat{ y } ||^{2} }{ || y - \bar{y} ||^{2} } = R^{2}

決定係数は説明変数を定数倍しても変化しない。

AIC

説明変数を定数倍したときのAIC AIC_{2}とおく。

 \displaystyle
AIC_2 = n \left( \mathrm{log} 2 \pi + 1 + \mathrm{log} \frac{1}{n} || y - \hat{ y_{2} } ||^{2} \right) + 2(p+2)

 \displaystyle
 = n \left( \log 2 \pi + 1 + \log \frac{1}{n} || y - \hat{ y } ||^{2} \right) + 2(p+2) = AIC

説明変数を何倍しても、 \hat{y} が変わらないのでAICは変化しない。

説明変数も目的変数も定数倍する

Xに加えて、yも定数倍する。yを変換し、以下のようなベクトル y_3 を考える。mはスカラー

 y_3 = my

このとき、次のモデルの解はどうなるか。

 y_{3} = X_{k} \beta_{3} + \varepsilon

偏回帰係数

yが変わっているだけなので、計算は難しくない。

 \displaystyle
\hat{ \beta_3 } = \left( X _{k} ^{T} X _{k} \right)^{-1} ( X _{k} )^{T} y_{3}

 \displaystyle
= \left( X _{k}^{T} X _{k} \right)^{-1} ( X _{k} )^{T} my

 \displaystyle
= m \left( X _{k} ^{T} X _{k} \right)^{-1} ( X _{k})^{T} y

 \displaystyle
= m \hat{ \beta_{2} }

この結果から、目的変数をm倍すると、係数全体がm倍になることがわかる。

決定係数

この場合、予測値 \hat{y_{4}}は次のようになる。

 \displaystyle
\hat{ y_{4} } = Y \hat{ \beta_{3} }

 \displaystyle
=mX \hat{ \beta} =m \hat{y}

つまり、予測値もm倍となる。

このときの決定係数 R_{3}^{2}は次のように計算できる。

 \displaystyle
R_{3}^{2} = 1- \frac{ ||y_{2} - \hat{ y_{4} } ||^{2} }{ || y_{2} - \bar{y_{2}} ||^{2} }

 \displaystyle
=1- \frac{||my - m \hat{y} ||^{2}}{||my - m \bar{y} ||^{2}}

 \displaystyle
=1- \frac{m^{2} ||y - \hat{y} ||^{2}}{m^{2} ||y - \bar{y} ||^{2}} = R^{2}

結局、決定係数は変わらない。

AIC

両方を定数倍した時のAIC AIC_{3}とおく。

 \displaystyle
AIC_{3} = n \left( \mathrm{log} 2 \pi + 1 + \mathrm{log} \frac{1}{n} || y_{2} - \hat{ y_{4} } ||^{2} \right) + 2(p+2)

 \displaystyle
= n \left( \mathrm{log} 2 \pi + 1 + \mathrm{log} \frac{1}{n} || my - m \hat{ y } ||^{2} \right) + 2(p+2)

 \displaystyle
= n \left( \mathrm{log} 2 \pi + 1 + \mathrm{log} \frac{m^{2}}{n} || y - \hat{ y } ||^{2} \right) + 2(p+2)

 \displaystyle
= n \left( \mathrm{log} 2 \pi + 1 + \mathrm{log} \frac{1}{n} || y - \hat{ y } ||^{2} \right) + 2(p+2) + 2n \mathrm{log} m

 \displaystyle
= AIC + 2n \mathrm{log} m

目的変数を定数倍すると、AICの値は変化する。 だが、これは 2n \mathrm{log} m の定数分だけずれるので、モデル選択そのものには特に影響しない。

結論

好きなだけ定数倍すればいいんじゃないだろうか。

予定

自分で書いてて、何か構成があまりよくないように感じた。

暇なときに、見出しの順番を変えて読みやすくするかもしれない。

これに加えて、変数に適当な定数を足した場合の影響を考えれば、どこかで聞いた話になる。