べんきのにっき

いろいろと垂れ流します。

a=0でのリスク比とmodifier

概要

例の本の4.3、marginalなりすくとconditionalなりすくの関係性について。

それらしく書いてみたけど、中学生レベルの計算であり、中身はない。

設定

 l \in Lにおいて、conditionalなりすく比 \frac{P(Y^{a=1}=1|l)}{P(Y^{a=0}=1|l)}は分かっていて、

それでいて、marginalなりすく比 \frac{P(Y^{a=1}=1)}{P(Y^{a=0}=1)}が1未満になって欲しいような状況があるとする。

このとき、どういう状況を確かめればいいんだろうか、と読むことにする。

方針

面倒になったので普通に書く

まず、周辺でのrrを、特定のconditionalなrrで書き換える。

そのため、書き換えられるよう、都合のよい式変形をおこなう。

 \displaystyle \frac{P(Y^{a=1}=1)}{P(Y^{a=0}=1)} =\frac{1}{P(Y^{a=0}=1)}\sum_{l \in L} P(Y^{a=1}=1|l)P(l)

 \displaystyle = \frac{1}{P(Y^{a=0}=1)}\sum_{l \in L} P(Y^{a=1}=1|l)P(l) \frac{P(Y^{a=0}=1|l)}{P(Y^{a=0}=1|l)}

 \displaystyle \tag{1}  = \sum_{l \in L} \frac{P(Y^{a=1}=1|l)}{P(Y^{a=0}=1|l)} \left\{ \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}  \right\}

ここで、 \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}をw(l)とでもおけば、conditionalとmarginalの橋渡しができるweightと考えることができる。

weightをlで周辺化したら1になるのは明らか。

一方、 w(l)=  P(l|Y^{a=0}=1) と変形することもできる。

式変形その2

層lのconditionalなrisk ratioをr(l)とおく。(1)が<1となるような不等式を考える。

 \displaystyle (1)= \sum_{l \in L} r(l) \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}  \lt 1

左辺をてきとうに変形して、何かしら考察する。

分母はlに依存しないからどうにかできる。

 \displaystyle \sum_{l \in L} r(l) P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

右辺を0にするため、良い感じの項を作る。

 \displaystyle \sum_{l \in L} \{ 1-(1-r(l)) \} P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

 \displaystyle P(Y^{a=0}=1) -  \sum_{l \in L} (1-r(l)) P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

両辺から引いて消す

 \tag{2} \displaystyle \sum_{l \in L} (1-r(l)) P(Y^{a=0}=1|l)P(l) \gt 0

ここから、次の3者の関係で、(1)<1となる条件を考察できそうだ。

  • lの偏り
  • lでの(ベースラインというかuntreatedな)リスク
  • lでの1-リスク比

必要な値

とはいえ、これだとgivenな値が少なすぎて直感的でない。

いったん、 l=\{0,1\}として(2)式を具体的に考えてみる。

 \displaystyle  (1-r(0)) P(Y^{a=0}=1|0)P(0) + (1-r(1)) P(Y^{a=0}=1|1)P(1) \gt 0

適当に変形して

 \displaystyle  (1-r(0)) P(Y^{a=0}=1|0)P(0)  \gt  - (1-r(1)) P(Y^{a=0}=1|1)P(1)

もう少し適当に変形して

 \displaystyle  \left( -\frac{1-r(0)}{1-r(1)}  \right) \frac{P(0)}{P(1)}  \lt   \frac{P(Y^{a=0}=1|1)}{P(Y^{a=0}=1|0)}

ここから、層内のリスク比が1から正負のそれぞれの方向に離れているとき、marginalなリスク比が1未満となる状況を整理できそう。

左辺の1-r(l)に関連する比が、良い感じに崩れていることが要求されるっぽい。

個別具体の数値例は、上式に適当に値を突っ込めばOK

書籍のあれだと、r(0)=2でr(1)=0.5だから、

 \displaystyle  \frac{2P(0)}{P(1)}  \lt   \frac{P(Y^{a=0}=1|1)}{P(Y^{a=0}=1|0)}

となるから、P(0)とP(1)、つまりlの存在比と、それぞれで条件づけたリスクの比で決まる、と読めば良いのかな。

untreatedな状態で高リスクな層があるけど、存在割合は少ないから全体的にはそうでもない、とかそんな。

しかしこれだと、lがbinary以外の場合における考察にどれくらい有用なんだろう?