べんきのにっき

いろいろと垂れ流します。

同時介入を書く練習

part3で出てくる同時効果の練習

ただしipwによる表記ではない。

前半では同時介入の定義や効果の定義を紹介し、後半では簡単な例で同時介入効果を確認する。

1. 同時因果効果

因果ダイアグラムGにおける頂点集合を \displaystyle X \cup \{ Y \} \cup Zとする。 次を同時因果効果という。

 \displaystyle \tag{1} p(y|do(X=x))=\sum_{z} \frac{p(x,y,z)}{\prod_{x} p(x|pa(x))}

2. 許容性基準

非巡回で有向なグラフGにおいて、 \displaystyle X=\{X_{1} \cdots X_{p}\}の各頂点がYの非子孫であり、 \displaystyle X_{i} \displaystyle X_{i+1}の非子孫となるように並べられているとする。

このとき、次の2条件を満たす変数集合 \displaystyle Z_{1} \cup \cdots \cup Z_{p} \displaystyle (X,Y)について許容性基準を満たすという。

条件1

任意の \displaystyle i(i=1,\cdots,p)について、 \displaystyle Z_{i} \displaystyle X_{i} \cdots X_{p}の非子孫からなる頂点集合である。

条件2

任意の \displaystyle i(i=1,\cdots,p)について、Gから \displaystyle X_{i+1} \cdots X_{p}に向かう全ての矢線と \displaystyle X_{i}から出る全ての矢線を取り除いたグラフにおいて \displaystyle \{X_{1} \cdots X_{i-1}\} \cup Z_{1} \cup \cdots \cup Z_{i} \displaystyle X_{i} \displaystyle Yを有向分離する。

3. 識別可能な時の効果の式

許容性基準を議論できるようなグラフGにおいて、許容性基準を満たす頂点集合が観測されていれば、同時因果効果は識別可能であり、次の式で計算することができる。

 \displaystyle \tag{2} p(y|do(X=x))=\sum_{z} p(y|x,z) \prod_{i=1}^{p} p(z_{i}|z_{1},\cdots , z_{i-1},x_{1},\cdots , x_{i-1})

4. 例

次の図のようなcausal-DAGについて、同時因果効果 \displaystyle p(y|do(A_{1}=a_{1},A_{2}=a_{2}))を求めてみよう。

f:id:ben_key:20200724051513p:plain

手順としては、許容性基準を満たす変数集合Zを特定し、そこから式(2)に当てはめればよい。

今回二つの介入を考えるから、 \displaystyle Z_{1} \displaystyle Z_{2}を二つのステップで特定する。

Z1の特定

 \displaystyle A_{1}について、次の操作を行う。

  •  \displaystyle A_{1}から出るパスを全部切断する
  •  \displaystyle A_{2}に向かうパスを全部切断する

これを実行すると次のグラフになる。

f:id:ben_key:20200724034144p:plain

上のグラフにおいて、次の2条件を満たすような \displaystyle Z_{1}を探す。

  •  \displaystyle Z_{1} \displaystyle  A_{1},A_{2}の子孫ではない
  •  \displaystyle \bigcup_{i=1}^{1} Z_{i}=Z_{1} \displaystyle A_{1} \displaystyle Yを有向分離する

ここから、 \displaystyle Z_{1} = L_{1}となることがわかる。

無事Z1を特定できた。

Z2の特定

Z1と同様に特定する。

 \displaystyle A_{2}について、次の操作を行う。

  •  \displaystyle A_{2}から出るパスを全部切断する
  •  \displaystyle A_{3}=\phiに向かうパスを全部切断する

これを実行すると次のグラフになる。

f:id:ben_key:20200724051528p:plain

上のグラフにおいて、次の2条件を満たすような \displaystyle Z_{2}を探す。

  •  \displaystyle Z_{2} \displaystyle  A_{2}の子孫ではない
  •  \displaystyle A_{1} \cup \bigcup_{i=1}^{2} Z_{i}= A_{1} \cup L_{1} \cup Z_{2} \displaystyle A_{2} \displaystyle Yを有向分離する

 \displaystyle Z_{2}の候補は複数あり、  \displaystyle Z_{2} = L_{2}または  \displaystyle Z_{2} = L_{3}または  \displaystyle Z_{2} = \{L_{2},L_{3}\} が挙げられる。

とくに意味はないけど \displaystyle Z_{2} = L_{3}を選ぶ。

Z2も特定できた。

同時因果効果

特定したZと式(2)から、 \displaystyle p(y|do(A_{1}=a_{1},A_{2}=a_{2}))を求める。 とりあえず書き下してみよう。

 \displaystyle (2) = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(z_{1}) p(z_{2}|z_{1},A_{1}=a_{1})

 \displaystyle Z_{i}に当たる部分を特定したものに書き換えると以下。

 \displaystyle \tag{3} = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(L_{1}) p(L_{3}|L_{1},A_{1}=a_{1})

これが同時因果効果になる。

5. 確認

(3)は、式(2)から計算した同時効果になっている。 元々の定義(1)から計算したものと一致していることを確認しよう。

まず、式(1)の同時効果を書き下そう。 同時分布 \displaystyle p(Y,A,L)は、グラフのマルコフ性を利用して分解する。  \displaystyle \prod_{x} p(x|pa(x))は、グラフの構造から考える。

 \displaystyle (1)=\sum_{L_{1},L_{2},L_{3}}\frac{p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(A_{2}=a_{2} | A_{1}=a_{1},L_{1},L_{2})p(L_{2}|A_{1}=a_{1},L_{3})p(L_{3}|A_{1}=a_{1})p(A_{1}=a_{1}|L_{1})p(L_{1}) }{p(A_{2}=a_{2} | A_{1}=a_{1},L_{1},L_{2})p(A_{1}=a_{1}|L_{1})}

 \displaystyle =\sum_{L_{1},L_{2},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(L_{2}|A_{1}=a_{1},L_{3})p(L_{3}|A_{1}=a_{1})p(L_{1})

で、 \displaystyle L_{2}は周辺化してしまうと

 \displaystyle \tag{4} (1)=\sum_{L_{1},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{3}|A_{1}=a_{1})p(L_{1})

6. 式(3)と(4)の比較

両方が同じかどうか比較してみよう

 \displaystyle (3) = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{p(L_{3}|L_{1},A_{1}=a_{1})} p(L_{1})

 \displaystyle (4)=\sum_{L_{1},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{p(L_{3}|A_{1}=a_{1})} p(L_{1})

下線部 \displaystyle p(L_{3}|L_{1},A_{1}=a_{1})の部分が違う。

ところで、グラフの構造をよく眺めると、 \displaystyle L_{1} \perp L_{3}|A_{1}が成立しているから、

 \displaystyle p(A_{1},L_{1},L_{3})=\frac{p(A_{1},L_{1})p(A_{1},L_{3})}{p(A_{1})}の関係がある。

これを利用すると、 \displaystyle p(L_{3}|L_{1},A_{1}=a_{1})は次のように変形できる。

 \displaystyle p(L_{3}|L_{1},A_{1}=a_{1}) = \frac{p(A_{1}=a_{1},L_{1},L_{3})}{p(A_{1}=a_{1},L_{1})}

 \displaystyle =\frac{p(A_{1}=a_{1},L_{1})p(A_{1}=a_{1},L_{3})}{p(A_{1}=a_{1},L_{1})p(A_{1}=a_{1})} = p(L_{3} | A_{1}=a_{1})

ということで、「  \displaystyle p(L_{3}|L_{1},A_{1}=a_{1})= p(L_{3} | A_{1}=a_{1}) 」が成立する。

以上をまとめると、同時因果効果の定義通りの値と、許容性基準から求めた同時因果効果が一致することが確認できた。

7. おまけ1:許容性基準の確認方法について

許容性基準を確認する際、介入の個数分だけ \displaystyle Z_{i}を特定するステップを繰り返すことになるんだけど、これがなかなかわかりづらい。 まとめると以下。

手順1  \displaystyle Gを切断したグラフ \displaystyle G_{i}を作成する

1-1: i番目の介入 \displaystyle X_{i} から出る パスを全て切断する

1-2:i+1番目 以降の 介入 \displaystyle X_{i+1} \cdots に向かう パスを全て切断する

手順2 変数集合を特定する

次の条件に合うものを探す。

条件2-1: i番目以降の介入 \displaystyle X_{i} \cdotsの子孫ではない

条件2-2: \displaystyle G_{i}において \displaystyle Z_{i} \cup \bigcup _{j=1}^{i-1} (X_{j} \cup Z_{j}) \displaystyle X_{i} \displaystyle Yを有向分離する

特に、2-2がわかりにくく、「i番目より前の許容性基準を満たす集合と介入の和集合」と「自分自身」の和集合が \displaystyle X_{i} \displaystyle Yを有向分離する、という感じなのがややこしいと感じた。

8. おまけ2:IPWとの関連

こはちょっと自信ないので信用できない。

式(3)から、同時介入時の条件付き分布は以下。

 \displaystyle  \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{3}|L_{1},A_{1}=a_{1}) p(L_{1})

これの分母と分子に \displaystyle p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})をかけると、次のようになる。

 \displaystyle  \sum_{L_{1},L_{3}} \frac{ p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{ p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) } p(L_{3}|L_{1},A_{1}=a_{1}) \underline{p(A_{1}=a_{1} | L_{1})} p(L_{1}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}

良い感じに同時分布に直せるから、

 \displaystyle = \sum_{L_{1},L_{3}} \frac{ p(y,A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}

何となくipwらしい感じになってきた。

ということは、期待値E(y)は多分こう

 \displaystyle E(y)= \sum_{y} \sum_{L_{1},L_{3}} y\frac{ p(y,A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}

同時分布を \displaystyle A_{1}=a_{1}かつ \displaystyle A_{2}=a_{2}のところでのみ積分する感じになるから、指示関数をつけて書き直す気がする。

 \displaystyle E(y)= E \left( \frac{ y I_{A_{1}=a_{1}} I_{A_{2}=a_{2}} }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})} \right)

おそらく、これがこの例におけるIPW定量なのだと思われる。