注意

正しさに一切の保証がない。

勉強中で、間違ったこと書いてある可能性が高い。

メモ

モデルとその推定方法（計算のための方針）を区別しよう

周辺な構造のモデル

counter factualなoutcomeの周辺期待値をモデルにしたもの。 $E(Y^{a}|V)$ みたいな感じで記述するイメージ。 Yではなく反事実な量 $Y^{a}$ についてのモデルであることに注意が必要

周辺な構造のモデルの推定はどうやってするの

IPWとかを使って、V以外では unconfoundedな集団を観測データから作る。（pseudo population と呼ぶようだ。）その集団から推定を行う。なので、割り当てに関するweightingが必要っぽい

構造がネストするモデル

周辺なやつは、実は $E(Y^{a=0})$ についての情報をモデルに含んでいる

ので、これを $E(Y^{a}-Y^{a=0}|V)$ としてしまうことで、a=0の値をunspecifiedにすることができる。

モデルの仮定を減らすことができるので嬉しい。

nest感はtime varyingについて考えるまでは漂わない。 (というか、time varyingでない場合にはsemiparametric marginal strucrural modelとstructural nested mean modelは同じものになるらしい　(fine point 14.2))

構造がネストするモデルの推定はどうやってするの

g-estimation　らしい

g-estimation　は何をやっている？

これは14章とそのプログラム例を元にしたメモ書き

rank -preservation　な感じにcounterfactualが表せるとする。

$Y ^{a} _{i} - Y ^{a=0} _{i} = \beta a$

（これを導入している理由は「わかりやすいから」らしい。なので、14.4がこれの説明に割かれている。）

consistencyのもとで、実測値に書き換えられる。左辺第二項について整理したり、counter factualを観測値に変えたりすると

$Y^{a=0}_{i} =Y_{i} - \beta A$

ということで、 $\beta$ をどうにかして当てたい。

上式の推定量的なものを本文ではHとおいてある。（うまくいけばHは $Y^{a=0}_{i}$ を当てることができるね）

過去記事潜在反応を交換する練習 - べんきのにっきから

conditional exchangeabilityの条件下において、割り当てと観測には次が成立する(aとAが使い分けられてない気がするけど、まぁいいや。)

$\tag{1} p(a|y^{1},y^{0},x)=p(a|x)$

邪魔な量があるので消しておくと

$\tag{2} p(a|y^{0},x)=p(a|x)$

で、左辺をプロビットでもロジットでもいいのでなんだかモデル化すると

$\tag{3} p(a|y^{0},x)=\alpha _{0}+\alpha _{1} (Y-\beta A) + \sum \beta _{i}x_{i}$

となる。

で、(2)が成立しているなら、(3)の $\alpha _{1}$ は0になるはずだ、と。

どうにかして、そうなるような $\beta$ を当てればよい。

方法の一つは総当たり。（ほんとに？と思ったけどサンプルはそうなっていた。えぇ・・・）

(0):割り当てのモデルを推定してIPを推定する

(1):重みをIPとして $\hat{\alpha} _{1}$ が0に近いモデルを探し当てる

(2):そのときの $\beta$ がATE

信頼区間も出せるよ、とのこと。でも多分ロバスト標準誤差とかそういうのが必要になるはず。

effect modification (Vとする)があるとかで、いっぱい推定しなきゃいけない場合は

$Y^{a=0}_{i} =Y_{i} - (\beta_{1} A + \beta_{2} A V )$

にして

$p(a|y^{0},x)=\alpha _{0}+\alpha _{1} (Y_{i} - (\beta_{1} A +\beta_{2} A V)) + \alpha _{2} (Y_{i} - (\beta_{1} A +\beta_{2} A V))V + \sum \beta _{i}x_{i}$

両方0になるところを探すということなのだろう（二つある場合のモデルに自信がない。あってるのかな、これ。）

周辺なほうとネストしてる方の違い

もしmodificationが存在している場合、周辺構造モデルで計算すると、 $\beta AL$ を入れ忘れていても（つまり、モデルを誤特定していても)ATEは計算できる。（Vをきちんとモデルに含めてあげると、Vごとの効果が推定できる。）一方、ネストの方でmodificationの項を入れ忘れてしまうと、結果はbiasedとなってしまうようだ。これは、ネストの方は $l \in L$ (confounder)ごとに計算していることが理由らしい。