よくわからないswig
swigの日本語の記事全然見つからなくて辛い。
本題と関係ない話
ところで、DAG(有向非巡回グラフ)はグラフの一種に過ぎず、因果推論の専売特許ではない。
一方、Causal Structureを表現する手段として有用である側面を持つため、 causal DAGとかで呼んだ方が誤解が減るのではないかと思う。
以上、DAGという言葉で因果推論マウントを取るのは筋違いな気がする話。
(あまり細かく言うと言葉狩りになるから、程度問題だとは思うけど。)
参考と図の出典
Single World Intervention Graphs: A Primer
図は上記から引用。
本題
例の本を読んでいると出てくるSWIG
single interventionにおけるcounter factualを表現するものらしい
最も簡単な例で言うと、次のようなグラフがあったとする。
いつも通りとしておく。
swigはDAGのノードを分割したりcounter factualなものに入れ替えて作成される。
このとき、もしなんかa=0とするような介入を想定すれば、こういう世界線を表す。
一方、a=1とする介入も当然あり、同様にこう表す。
両方まとめて、(1)のように書けばいいね。というもののようだ。
swigにする方法
ステップは多分二つ。
ステップ1: interventionの対象となる全てのノードをrandom nodeとfixed nodeにsplitする
random nodeとfixed nodeは次の通りで、パスを受け取る側のノードとパスを出す側のノードに分割している。
ノード | 表記 | ノードへパスが | ノードからパスが |
---|---|---|---|
random node | 大文字 | 向かっている | 出ていない |
fixed node | 小文字 | 向かっていない | 出ている |
大文字小文字は厳密なルールではないので、あんまり気にしなくて良いと思う。受け取る側と出る側に役割が分かれていることが大事。
例えばノードAをsplitするとこうなる。
なお、treatmentが複数地点ある場合、全てsplitする。
ステップ2: fixed nodeのdescendantのノードを全て、counter factualな記法に書き換える
splitしたグラフを対象とし、fixed nodeが親であるノードを、 fixed nodeのcounter factualであることがわかるように書き換える。 これはinterventionのノードであっても適用され、(random nodeを)書き換える。
splitしたノードの書き換え例は以下。splitされたノードBやFも書き換えられていることがわかる。
ちなみに子ではなく子孫であることに注意する。
つかいどころ
random nodeとYの交絡道が切れているか(d-seperatedであるか)判断するようだ。
part3で思い出したように出てくるので困る。
あなたのmatchは何match?
概要
matchingってなんなの?みたいな感じの妄言
基本的な話は全て省略する。
ちなみにps matchingがrctをmimickingしてるとか、そう言う話にも触れない。
今回のテーマは「使用法という意味で使いやすい手法について、その意図や背景が理解しやすいかと言うのは全く別の話なのだなぁ」とした。
そもそもmatchingってなんのためにやるのか
(因果推論における)matchingは、「自分と近しい集団は比較可能だよね」という考えが根底にある。
そこで、同じ属性を持つ個体(あるいはなんらかの尺度で近い個体)を集めて、 その集合で適当に計算をする。
そうして求めた統計量を、何かの効果だとみなしたいのだ
matchingが計算しているものは何か
matcingの注意点として「マッチングによって求めた量が一体何を表すかは自明とは限らない」が挙げられる。
以下でそれをなんとなく考えてみよう。
視点1 データのバランス
例えばuntreated:treated=1:1で全部きれいにマッチしたら、matchingに用いたデータ(つまり取得したデータ全体)に対するaverage treatment effectであると考えれば良い。*1
一方、世の中でマッチングに用いるデータは「untreatedが少ない」とか「treatedが少ない」といった場合がある。
新規の治療法とか、重症の人専用とか、何でも良いが、常にbalancedとは限らない。
さて、そのようにunbalancedなデータをmatchingし計算した量(効果)は一体ナニモノなんだろうか。
例1:treatedが少ない場合
少数のtreatedにマッチする個体を多数のuntreatedから探してきて、全てのtreatedな個体にマッチング相手が探されてきたとしよう。
この場合、求めているのはATTに近くなる。
treated全員に対してmatchするペアを作り直したからだ。
マッチした集団については、internal validityを満たすと考えてよいのだろう。
例2:untreatedが少ない場合
こちらは少数のuntreatedにtreatedを探してくる作業になる。
ATUに近いと考えれば良い(はず)。理由は、上と逆の状況であるから。
例3:なんとなく困るとき
上記の例1と例2から「nが少ない方の集団全体がきれいにマッチしたら、ATTとかATUに似た値が計算できそう」なことは分かった。
実際問題として、そもそも少数の方が全てマッチされるとは限らず、少数の方すら捨てられる個体が存在する。
例えば、いたずらにキャリパーを小さくしたPSMを考えると、少数派の全てがマッチしないことは容易に想像できるよね
こうなると話がややこしくなる。 matched pairは、少数派の中で代表性を持つわけではなく、単に値が近いからマッチしただけなのだ。
ここで計算された効果はATTでもATUでもない。極端には、「treatedの中で、なんか値が似てるものを集めた集団での効果」となるのだ。
「いかなるmodifierもない!」と考えられる場合を除き、これが我々のresearch questionの答えに足る量なのだろうか。
視点2:modifierがあったら?
modifierがあったらmatchingはどうなんねん!と言う話が出た。
絶対にあり得ないと思うが、「modifierでstratifyした集団ごとにmatchして、それがカンペキにmatchしたら、もしかしたら調整してATE計算できるのでは?」と思った。
しかし、modifierのバランスが狂っている状況を生み出す原因を考察し始めると、単純な話でもなさそう。
例えばこんな集団、性別がmodifierだったとする。
(諸々の条件は成立するってことで)
A | 性別 | 割合(%) | counterfactual outcome |
---|---|---|---|
1 | 男 | 5 | a |
1 | 女 | 15 | b |
0 | 男 | 55 | 0 |
0 | 女 | 25 | 0 |
この例では、男にはa、女にはbの効果。
modifierをガン無視し、ばっちりマッチしたとすると、これはATTでもある。
でもこれ、男:女=6:4だからATEは
男だけマッチするとconditionalなeffectでaが求められる。 女だけでマッチすると同様にbが求められる。
これをmodifierの比率でウェイトバックすると、になってATEになっているから、matchingでも計算できて嬉しい・・・?
注意:言うまでもないが、層別してもmatchingが必ず成立する非常に限定的な状況
ほぼ間違いなく上記の例は、あまりにも単純すぎて本来考えるべき状況をmimickできていない気がする。
例えば、以下の例なら男女のマッチペアが存在できるため一気にややこしくなりそう。 そもそも層別してさらにマッチングとか、positivity死にそうな気がするけどいいの?とか。疑問は尽きない。
A | 性別 | 割合(%) | counterfactual outcome |
---|---|---|---|
1 | 男 | 5 | a |
1 | 女 | 15 | b |
0 | 男 | 55 | c |
0 | 女 | 25 | d |
思ったこと
いや、IPW使いますよね、ここまできたら。
ていうかconditional effectを求めるためにmatching使っただけで、ウェイトバックってipwですよね。
*1:そんな良いデータが存在するのかはここでは考えない
a=0でのリスク比とmodifier
概要
例の本の4.3、marginalなりすくとconditionalなりすくの関係性について。
それらしく書いてみたけど、中学生レベルの計算であり、中身はない。
設定
層において、conditionalなりすく比は分かっていて、
それでいて、marginalなりすく比が1未満になって欲しいような状況があるとする。
このとき、どういう状況を確かめればいいんだろうか、と読むことにする。
方針
面倒になったので普通に書く
まず、周辺でのrrを、特定のconditionalなrrで書き換える。
そのため、書き換えられるよう、都合のよい式変形をおこなう。
ここで、をw(l)とでもおけば、conditionalとmarginalの橋渡しができるweightと考えることができる。
weightをlで周辺化したら1になるのは明らか。
一方、と変形することもできる。
式変形その2
層lのconditionalなrisk ratioをr(l)とおく。(1)が<1となるような不等式を考える。
左辺をてきとうに変形して、何かしら考察する。
分母はlに依存しないからどうにかできる。
右辺を0にするため、良い感じの項を作る。
両辺から引いて消す
ここから、次の3者の関係で、(1)<1となる条件を考察できそうだ。
- lの偏り
- lでの(ベースラインというかuntreatedな)リスク
- lでの1-リスク比
必要な値
とはいえ、これだとgivenな値が少なすぎて直感的でない。
いったん、として(2)式を具体的に考えてみる。
適当に変形して
もう少し適当に変形して
ここから、層内のリスク比が1から正負のそれぞれの方向に離れているとき、marginalなリスク比が1未満となる状況を整理できそう。
左辺の1-r(l)に関連する比が、良い感じに崩れていることが要求されるっぽい。
個別具体の数値例は、上式に適当に値を突っ込めばOK
書籍のあれだと、r(0)=2でr(1)=0.5だから、
となるから、P(0)とP(1)、つまりlの存在比と、それぞれで条件づけたリスクの比で決まる、と読めば良いのかな。
untreatedな状態で高リスクな層があるけど、存在割合は少ないから全体的にはそうでもない、とかそんな。
しかしこれだと、lがbinary以外の場合における考察にどれくらい有用なんだろう?
悲しみのメモ
sharp causal null hypothesisの話
sharp causal null hypothesisってなんなのという話。
これを見ると、例えば2値の割付Aにおいて、populationのどのような個人にも効果がない状態を
とし、sharp causal null hypothesisがtrueだと書いてあった。
好みで記法ちょっと変えていて、individualをで、populationをで書いた。こっちの方がみたいで確率変数っぽくみえるよね。
ちなみに、命題「sharp null .... が真→ATE=0」は正しい。
というのも、なんだから、ATEもになるよね。
nondeterministic potential outcomeの話
以下では、TP1.2*1の計算の気持ちが掴めなかったので、雑に考えてみる。
それっぽい変形を考えてはみたけど、確率1で間違っている。
期待値の変形が何度かされていたんだけど、それぞれが一体なんの分布の上で積分してるのか全く直感的でなかったので、なんとかこれを補いたいのがモチベーション。
量子とかそういうのは興味がないので、以下、そう言った視点は全て捨てる。
non deterministicな状況をどう考えるか*2は余地がありそう。反応を規定する要素を完全に取り込み切れていない状態と考えられるならば、それっぽい感じがある。
もし、potential outcomeがdeterministicではなかったとし、A=aにおけるpotential outcomeの分布がパラメータtに依存し、tはなんらかの分布を持つとする。
潜在反応のpdfをと書く。さらにtの分布をp(t)とおく。
ここから、potential outcomeの平均的なpdfをとしたら、次のように計算できる?*3S(t)はオレオレ記法でtの台の意味。
このとき、the average potential outcome in the populaitionは、おそらくこういう量を計算しようとしているんじゃないかな?と思う。
もしこれが正しいなら、朧げに何を計算しているかをなんとなくイメージできた気がする。
参考にしようと思ったけど、結局読まなかった。
おしだせ、しゅうごうのぞく
内容
加法族を押し出した場合にも加法族になることを考える練習
何年か前の自分の為に書いた。強烈にくどい書き方であるが、当時の私にはこれくらいでないと分からない。
押し出しの定義
集合X,Y
関数
集合族、
を用いて、押し出しを次の通り定義する*1。
押し出し :
ここから、ある集合Zについてを示すには、その逆像がとなることを示せばよいことがわかる。
押し出しで示したいこと
が加法族ならも加法族
が加法族であることは前提になっている
このあと表記上の理由から、とおく。(文字数を減らしたいだけ)
1. 空集合を含む
示すべき内容
方針
特になし。を示すだけ。
【証明】
仮定よりが加法族であるから、。
まとめると、次の通り。
ということで、が証明できた。
2. 補集合で閉じる
示すべき内容
方針
のとき、であることを確認すればよい。
そのため、の定義から、「」と「」が成立することを示せばよい。ただし前者はまぁ自明っぽいよねということで後者だけ確認する。
【証明】
ある集合Bがとする。 このとき押し出しの定義からである。
仮定よりが加法族であるから、(なので、)となる。
ここで、「」と「」を考えると、次のようになる。
ということで、が確認できたので証明できた。
3. 加算加法性を持つ
示すべき内容
方針
のときであることを確認すればよい。
先と同様に、の定義から、「」が成立することを示せばよい。
【証明】
可算個の集合がとする。 このとき押し出しの定義からである。
仮定よりが加法族であるから、(なので、)となる。
ここで、「」を考えると、次のようになる。
ということで、が確認できたので証明できた。
補足:証明のために必要な内容
式変形でしれっと使用した関係がいくつかあるので、書いておく。
関係1 :
これ約束か定義だと思う。
関係2 :
これは逆像の定義をよく考えたら全射、単射に関係なく成立する。
関係3 :
関係4 :
*1:押し出しも引き戻しも、どちらも逆像で定義している