間違った発言をごめんなさいしたり補足したりしていく

紅茶の夫人

紅茶のミルクが後入れか先入れかを実験した、あるいはそれに言及したのはフィッシャー本人であった。

Gary Kingによる傾向スコアマッチングへの論文

本論文の5. The Propensity Score Paradoxや7. Concluding Remarksから

説明変数がカテゴリカルだとpoor (=Imbalance)になるわけではない。連続変量であろうが離散変量であろうが、Imbalanceになることがある、らしい。

グラフとか見ていると、 number of pruned observationsの増加とともに傾向スコアマッチング(PSM)によるImbalanceが増加している。（一方で、マハラノビス距離(MDM)によるマッチングはその傾向を持っていない）

PSMはcompletely randomized experimentの近似であるが、やりすぎるとImbalanceになる。

7章に結構キーとなる情報が多そうだ。PSM paradoxも同様。

あとsupplemental見ると、covariateが多い時number of units prunedが増加するとImbalancedらしい。といってもこれ1変数から3変数までの比較でしかないので少し解釈に困る気がする。

サンプルサイズと(準)多重共線性

以下では、重回帰の仮定を全て満たしているとする*1。

このとき、偏回帰係数 $\displaystyle \theta$ の推定量 $\displaystyle \hat{\theta}$ は、次の多変量正規分布に従う。

$\displaystyle \hat{\theta} \sim N \left( \theta , \frac{\sigma ^{2} }{n} S ^{-1} _{xx} \right)$

Sは標本共分散行列で、 $\sigma ^{2}$ は誤差項の分散。

これ正直、一致推定量なので話は落ちている気がする（ランクは落ちていない）。

（準）多重共線性が起きていたとすると、 $S ^{-1} _{xx}$ の行列式が0に近くなる。が、 $S_{xx}$ は母共分散行列に一致する。つまりその逆行列の対角要素は有限の値に収束するので、これをnについて極限をとれば0になる。

このことから、(準)多重共線性があっても一致推定可能、つまりサンプルサイズを増やせば多重共線性の問題は解決できると考えてもいいんじゃないかな？

かと言って、これが実務的な使用において分析者に安心感を与えることにはならないだろうけど・・・。

「ものすごく推定量としては暴れるからこの結果は信用できないけど、漸近不偏*2だしサンプルサイズが無限大のとき一致するからきっと大丈夫だよ！」なんて言われても、何の嬉しさもないような気がする。

追記

準多重共線性とサンプルサイズと一致推定について、例えばこんな簡単な実験をしてみよう。

3つの変数xyzを次のような構造的因果モデルに従ってデータを生成させる。重回帰でやるのでfは線形。

z=f(e1)

x=f(z,e2)

y=f(x,z,e3)

ただしxとzに高い相関を持たせて、準多重共線性を引き起こさせる。

この状態でxからyへの因果効果を推定したい。準多重共線性はどれほど深刻な問題となるだろうか。

…というのを遊ぶことが出来るのが下のコード。 coeffv[3]の値（この例だと5）を当てることが目的。

run <- 100
betaOK <- rep(0,run)
betaNG <- rep(0,run)
n <- 100
coeffv <- c(1,-3,5)
errv <- c(0.08,3)

for (i in 1:run){
    z <- runif(n)
    x <- coeffv[1]*z+rnorm(n,mean=0,sd=errv[1])
    y <- coeffv[2]*z+coeffv[3]*x+rnorm(n,mean=0,sd=errv[2])
    
    dat <- data.frame(Y=y,X=x,Z=z)
    res <- lm(Y~X+Z,data=dat)
    betaOK[i] <- res$coefficients[2]
    res <- lm(Y~X,data=dat)
    betaNG[i] <- res$coefficients[2]
}
cor(dat)
hist(betaOK)