12月26日
間違った発言をごめんなさいしたり補足したりしていく
紅茶の夫人
紅茶のミルクが後入れか先入れかを実験した、あるいはそれに言及したのはフィッシャー本人であった。
Gary Kingによる傾向スコアマッチングへの論文
本論文の5. The Propensity Score Paradoxや7. Concluding Remarksから
説明変数がカテゴリカルだとpoor (=Imbalance)になるわけではない。 連続変量であろうが離散変量であろうが、Imbalanceになることがある、らしい。
グラフとか見ていると、 number of pruned observationsの増加とともに傾向スコアマッチング(PSM)によるImbalanceが増加している。 (一方で、マハラノビス距離(MDM)によるマッチングはその傾向を持っていない)
PSMはcompletely randomized experimentの近似であるが、やりすぎるとImbalanceになる。
7章に結構キーとなる情報が多そうだ。PSM paradoxも同様。
あとsupplemental見ると、covariateが多い時number of units prunedが増加するとImbalancedらしい。 といってもこれ1変数から3変数までの比較でしかないので少し解釈に困る気がする。
サンプルサイズと(準)多重共線性
以下では、重回帰の仮定を全て満たしているとする*1。
Sは標本共分散行列で、は誤差項の分散。
これ正直、一致推定量なので話は落ちている気がする(ランクは落ちていない)。
(準)多重共線性が起きていたとすると、の行列式が0に近くなる。 が、は母共分散行列に一致する。つまりその逆行列の対角要素は有限の値に収束するので、これをnについて極限をとれば0になる。
このことから、(準)多重共線性があっても一致推定可能、つまりサンプルサイズを増やせば多重共線性の問題は解決できると考えてもいいんじゃないかな?
かと言って、これが実務的な使用において分析者に安心感を与えることにはならないだろうけど・・・。
「ものすごく推定量としては暴れるからこの結果は信用できないけど、漸近不偏*2だしサンプルサイズが無限大のとき一致するからきっと大丈夫だよ!」なんて言われても、何の嬉しさもないような気がする。
追記
準多重共線性とサンプルサイズと一致推定について、例えばこんな簡単な実験をしてみよう。
3つの変数xyzを次のような構造的因果モデルに従ってデータを生成させる。重回帰でやるのでfは線形。
z=f(e1)
x=f(z,e2)
y=f(x,z,e3)
ただしxとzに高い相関を持たせて、準多重共線性を引き起こさせる。
この状態でxからyへの因果効果を推定したい。準多重共線性はどれほど深刻な問題となるだろうか。
…というのを遊ぶことが出来るのが下のコード。 coeffv[3]の値(この例だと5)を当てることが目的。
run <- 100 betaOK <- rep(0,run) betaNG <- rep(0,run) n <- 100 coeffv <- c(1,-3,5) errv <- c(0.08,3) for (i in 1:run){ z <- runif(n) x <- coeffv[1]*z+rnorm(n,mean=0,sd=errv[1]) y <- coeffv[2]*z+coeffv[3]*x+rnorm(n,mean=0,sd=errv[2]) dat <- data.frame(Y=y,X=x,Z=z) res <- lm(Y~X+Z,data=dat) betaOK[i] <- res$coefficients[2] res <- lm(Y~X,data=dat) betaNG[i] <- res$coefficients[2] } cor(dat) hist(betaOK)
nを増やせば分かるが、真の因果効果を問題なく一致推定できている。
errv[1]を小さくするとより深刻な状態を作り出せる。0.01でとても不安定になるが、それでもnを10万くらいにすると一致推定できていそうな雰囲気が出てくる。
betaNGはzを説明変数から除いた場合の係数の推定値。
多重共線性があるからと言って因果効果を識別できないモデルを用いてしまうと大変なことになりそう。
ただしこれは一致推定の観点からの意見であるということに注意したい。
先にも述べたように、小サンプルの時には不偏性は保証されているがとんでもなく暴れている推定値を結果として受け入れられるか?というおはなし。