べんきのにっき

いろいろと垂れ流します。

あなたのmatchは何match?

概要

matchingってなんなの?みたいな感じの妄言

基本的な話は全て省略する。

ちなみにps matchingがrctをmimickingしてるとか、そう言う話にも触れない。

今回のテーマは「使用法という意味で使いやすい手法について、その意図や背景が理解しやすいかと言うのは全く別の話なのだなぁ」とした。

そもそもmatchingってなんのためにやるのか

(因果推論における)matchingは、「自分と近しい集団は比較可能だよね」という考えが根底にある。

そこで、同じ属性を持つ個体(あるいはなんらかの尺度で近い個体)を集めて、 その集合で適当に計算をする。

そうして求めた統計量を、何かの効果だとみなしたいのだ

matchingが計算しているものは何か

matcingの注意点として「マッチングによって求めた量が一体何を表すかは自明とは限らない」が挙げられる。

以下でそれをなんとなく考えてみよう。

視点1 データのバランス

例えばuntreated:treated=1:1で全部きれいにマッチしたら、matchingに用いたデータ(つまり取得したデータ全体)に対するaverage treatment effectであると考えれば良い。*1

一方、世の中でマッチングに用いるデータは「untreatedが少ない」とか「treatedが少ない」といった場合がある。

新規の治療法とか、重症の人専用とか、何でも良いが、常にbalancedとは限らない。

さて、そのようにunbalancedなデータをmatchingし計算した量(効果)は一体ナニモノなんだろうか。

例1:treatedが少ない場合

少数のtreatedにマッチする個体を多数のuntreatedから探してきて、全てのtreatedな個体にマッチング相手が探されてきたとしよう。

この場合、求めているのはATTに近くなる。

treated全員に対してmatchするペアを作り直したからだ。

マッチした集団については、internal validityを満たすと考えてよいのだろう。

例2:untreatedが少ない場合

こちらは少数のuntreatedにtreatedを探してくる作業になる。

ATUに近いと考えれば良い(はず)。理由は、上と逆の状況であるから。

例3:なんとなく困るとき

上記の例1と例2から「nが少ない方の集団全体がきれいにマッチしたら、ATTとかATUに似た値が計算できそう」なことは分かった。

実際問題として、そもそも少数の方が全てマッチされるとは限らず、少数の方すら捨てられる個体が存在する。

例えば、いたずらにキャリパーを小さくしたPSMを考えると、少数派の全てがマッチしないことは容易に想像できるよね

こうなると話がややこしくなる。 matched pairは、少数派の中で代表性を持つわけではなく、単に値が近いからマッチしただけなのだ。

ここで計算された効果はATTでもATUでもない。極端には、「treatedの中で、なんか値が似てるものを集めた集団での効果」となるのだ。

「いかなるmodifierもない!」と考えられる場合を除き、これが我々のresearch questionの答えに足る量なのだろうか。

視点2:modifierがあったら?

modifierがあったらmatchingはどうなんねん!と言う話が出た。

絶対にあり得ないと思うが、「modifierでstratifyした集団ごとにmatchして、それがカンペキにmatchしたら、もしかしたら調整してATE計算できるのでは?」と思った。

しかし、modifierのバランスが狂っている状況を生み出す原因を考察し始めると、単純な話でもなさそう。

例えばこんな集団、性別がmodifierだったとする。

(諸々の条件は成立するってことで)

A 性別 割合(%) counterfactual outcome
1 5 a
1 15 b
0 55 0
0 25 0

この例では、男にはa、女にはbの効果。

modifierをガン無視し、ばっちりマッチしたとすると \displaystyle \frac{a+3b}{4}、これはATTでもある。

でもこれ、男:女=6:4だからATEは \displaystyle \frac{3a+2b}{5}

男だけマッチするとconditionalなeffectでaが求められる。 女だけでマッチすると同様にbが求められる。

これをmodifierの比率でウェイトバックすると、 \displaystyle \frac{3a+2b}{5}になってATEになっているから、matchingでも計算できて嬉しい・・・?

注意:言うまでもないが、層別してもmatchingが必ず成立する非常に限定的な状況

ほぼ間違いなく上記の例は、あまりにも単純すぎて本来考えるべき状況をmimickできていない気がする。

例えば、以下の例なら男女のマッチペアが存在できるため一気にややこしくなりそう。 そもそも層別してさらにマッチングとか、positivity死にそうな気がするけどいいの?とか。疑問は尽きない。

A 性別 割合(%) counterfactual outcome
1 5 a
1 15 b
0 55 c
0 25 d

思ったこと

いや、IPW使いますよね、ここまできたら。

ていうかconditional effectを求めるためにmatching使っただけで、ウェイトバックってipwですよね。

*1:そんな良いデータが存在するのかはここでは考えない