べんきのにっき

いろいろと垂れ流します。

consistent estimatorを分散から確認することの是非

どこかに似たような記事があるが、気にしないことにする。 仮に似てたとして、その記事を書いたのは私なので、何らパクリではない。

導入

とある勉強会で、estimatorが持って欲しい性質として、"unbiasedness"と"varianceが小"が挙げられていた。

で、"varianceが小"というのは文脈的にconsistencyを指しているようだった。

今回はこれに着目し、consistencyを分散と言う言葉で表現する(or理解)ことについて、そのjustificationを考えてみよう。

答えだけ先に書いておくと、「consistencyを推定量の分散が0になる性質と理解するのは厳密には正しくない*1ただし、大抵の場合、別にその理解で全く問題ない 」である。

なお、本記事の目的は、発表者への文句ではなく、一般的な方便の重箱をつついて、方便が意味するところを再確認するものである。

consistencyとは

一致性あるいは測度収束のこと。

具体的には推定量が真値の \displaystyle \varepsilon近傍をはみ出す確率の極限が0になること。

詳しくは普通の統計の教科書を参考。

consistencyが成立することを確認する方法

いくつかの候補がある。

  • 方法1:定義から確認する
  • 方法2チェビシェフの不等式から確認する
  • 方法3:別の方法を経由して確認する

今回確認すること

「consistencyは推定量の分散が0になる性質」という方便を、上記の方法で確認する。

その結果、方便が実はちょっと怪しく、一部の反例が存在すること。

確認に使用する例

wikipediaより引用

https://wikimedia.org/api/rest_v1/media/math/render/svg/e585632f24f322d896520f5b8756450f16d7105f

これは、 \displaystyle E(T_{n})=\theta + \delta となるからbiased。だけどconsistentという少し変な性質を持っている。

上述の方法を用いてconsistencyを持つことを確認しよう。

方法1で確認する

それなりの \displaystyle \deltaを考えると、真値 \displaystyle \thetaをはみ出る確率は \displaystyle Pr(|T_{n}-\theta | > \varepsilon) = \frac{1}{n}となる。

ということは、nを飛ばすと0になる。

だから、consistencyを持つことになる。

方法2で確認する

チェビシェフの不等式を適用するためには、 \displaystyle T_{n}の平均と分散が必要になる。*2

というわけで平均と分散を計算しよう。

 \displaystyle E(T_{n}) = \left( 1- \frac{1}{n} \right) \theta + \left(  \frac{1}{n} \right) ( n\delta + \theta) =\theta + \delta

 \displaystyle V(T_{n}) = \left( 1- \frac{1}{n} \right) (- \delta) ^{2} + \left(  \frac{1}{n} \right) (  n \delta - \delta )^{2} = \left( 1- \frac{1}{n} \right) \delta ^{2} + \frac{(n-1) ^2 \delta  ^2 }{n}

さて、nの極限を考えると、  T_{n}は有限の分散を持たない ことがわかった。

チェビシェフの不等式は、有限の分散を持つ場合にしか適用できないので、方法2ではconsistencyを確認できない。残念。

というか、この時点で「一致性を持つのに分散が無限になる」ことが判明した。さて、困った。

方法3で確認する

別の方法の例として、ここでは確率収束より厳しい条件であるL2収束と同値な条件を経由する方法を用いる。

最初に、次の二つの条件を考える。

  • 条件1: \displaystyle E(T_{n})がasymptotic unbiasedかつ、収束先が定数
  • 条件2: \displaystyle V(T_{n})のasymptoticに0

上記の2条件が成立する時、 \displaystyle T_{n}はL2の意味で収束する。 また、「L2収束するなら確率収束する」という性質を用いると、「条件1と条件2が成立する時、 \displaystyle T_{n}は収束先の定数に確率収束する」ことがわかる。

しかし、残念ながら漸近分散が0にならないので、やはりこの方法でもconsistencyは確認できない。

確認結果から言えること

 \displaystyle T_{n}は分散0にならない(無限大になる)のに、consistencyを満たすことがわかった。

つまり、consistency(確率収束)と推定量の分散が0になることは同値ではない

その意味で最初に述べた方便は正しくない。

ただし、方法3は方便とかなり近いことを述べていて、「consistencyとは、推定量の分散が小さくなること」が実は結構正しいことも同時にわかる。 しかしこの時、asymptotically unbiasedを合わせて述べておくのがベターである。 (退化するような場合、consistencyを"漸近不偏"と"漸近分散が0"と表現することに間違いがない、の意味)

結局何が言いたいんですか?

ぶっちゃけ、推定量の分散が小さくなって、かつ漸近不偏かつ定数ならconsistencyと言っていいと思う。

あと、wikipediaの例は確かに成立してるんだけど、practicalに実在しそうな例にして欲しい。 もちろん、実務家のためのwebサイトではないので、お門違いな意見であることは百も承知である。

*1:条件が足りない

*2:そもそも論として、これは平均周りの評価をする不等式であって、今回評価したいθの近傍を評価してない。その時点で「それで何がしたいの?」くらいに思う。

20章の例題をといてみる

前回の記事で練習した同時介入効果の式を使って、実際に例の本の例題データが解けることを確認する。

データ

N  \displaystyle A_{0}  \displaystyle L_{1}  \displaystyle A_{1} Y
2400 0 0 0 84
1600 0 0 1 84
2400 0 1 0 52
9600 0 1 1 52
4800 1 0 0 76
3200 1 0 1 76
1600 1 1 0 44
6400 1 1 1 44

書籍のTable 20.1と同じもの

グラフ

f:id:ben_key:20200724144203p:plain

書籍のFigure20.3と同じもの

解く

まず、同時介入のための \displaystyle Z_{1} \displaystyle Z_{2}を特定する。

構造が簡単なので、比較的簡単。

 \displaystyle Z_{1}を特定する。 \displaystyle A_{0}から出るパスと \displaystyle A_{1}に向かうパスを切断したものは以下。

f:id:ben_key:20200724144214p:plain

 \displaystyle A_{0} \displaystyle Yは切れているので、 \displaystyle Z_{1}=\phiであることがわかる。

次に \displaystyle Z_{2}を特定する。 \displaystyle A_{1}パス出てないし \displaystyle A_{2}がそもそも存在しないため切断不要、グラフは以下。

f:id:ben_key:20200724144203p:plain

 \displaystyle A_{0} \cup Z_{2} \displaystyle A_{1} \displaystyle Yを有向分離するには、 \displaystyle Z_{2}=L_{1}とすればよい。

で以上で特定はできた。前回求めた同時効果の式から、計算式は以下になる。

 \displaystyle E(Y|do(A_{0},A_{1}))=\sum_{L_{1}} E(Y|A_{0},A_{1},L_{1})p(L_{1}|A_{0})

あとは表から数字を引っ張ってきて、 \displaystyle E(Y|do(A_{0}=0,A_{1}=0)) \displaystyle E(Y|do(A_{0}=1,A_{1}=1))を計算しよう。

まず前者のnever treatを計算する。

 \displaystyle E(Y|do(A_{0}=0,A_{1}=0))

 \displaystyle =E(Y|A_{0}=0,A_{1}=0,L_{1}=0)p(L_{1}=0|A_{0}=0)  \\ +E(Y|A_{0}=0,A_{1}=0,L_{1}=1)p(L_{1}=1|A_{0}=0)

 \displaystyle =84\frac{1600+2400}{16000} + 52\frac{2400+9600}{16000}=21+39=60

次に後者のalways treatを計算する。

 \displaystyle E(Y|do(A_{0}=1,A_{1}=1))

 \displaystyle =E(Y|A_{0}=1,A_{1}=1,L_{1}=0)p(L_{1}=0|A_{0}=1)  \\ +E(Y|A_{0}=1,A_{1}=1,L_{1}=1)p(L_{1}=1|A_{0}=1)

 \displaystyle =76\frac{4800+3200}{16000} + 44\frac{1600+6400}{16000}=38+22=60

以上から、このcontrastは以下の通り0(因果効果なし)となる。正しい結果になった。

 \displaystyle E(Y|do(A_{0}=1,A_{1}=1))-E(Y|do(A_{0}=0,A_{1}=0))=60-60=0

同時介入を書く練習

part3で出てくる同時効果の練習

ただしipwによる表記ではない。

前半では同時介入の定義や効果の定義を紹介し、後半では簡単な例で同時介入効果を確認する。

1. 同時因果効果

因果ダイアグラムGにおける頂点集合を \displaystyle X \cup \{ Y \} \cup Zとする。 次を同時因果効果という。

 \displaystyle \tag{1} p(y|do(X=x))=\sum_{z} \frac{p(x,y,z)}{\prod_{x} p(x|pa(x))}

2. 許容性基準

非巡回で有向なグラフGにおいて、 \displaystyle X=\{X_{1} \cdots X_{p}\}の各頂点がYの非子孫であり、 \displaystyle X_{i} \displaystyle X_{i+1}の非子孫となるように並べられているとする。

このとき、次の2条件を満たす変数集合 \displaystyle Z_{1} \cup \cdots \cup Z_{p} \displaystyle (X,Y)について許容性基準を満たすという。

条件1

任意の \displaystyle i(i=1,\cdots,p)について、 \displaystyle Z_{i} \displaystyle X_{i} \cdots X_{p}の非子孫からなる頂点集合である。

条件2

任意の \displaystyle i(i=1,\cdots,p)について、Gから \displaystyle X_{i+1} \cdots X_{p}に向かう全ての矢線と \displaystyle X_{i}から出る全ての矢線を取り除いたグラフにおいて \displaystyle \{X_{1} \cdots X_{i-1}\} \cup Z_{1} \cup \cdots \cup Z_{i} \displaystyle X_{i} \displaystyle Yを有向分離する。

3. 識別可能な時の効果の式

許容性基準を議論できるようなグラフGにおいて、許容性基準を満たす頂点集合が観測されていれば、同時因果効果は識別可能であり、次の式で計算することができる。

 \displaystyle \tag{2} p(y|do(X=x))=\sum_{z} p(y|x,z) \prod_{i=1}^{p} p(z_{i}|z_{1},\cdots , z_{i-1},x_{1},\cdots , x_{i-1})

4. 例

次の図のようなcausal-DAGについて、同時因果効果 \displaystyle p(y|do(A_{1}=a_{1},A_{2}=a_{2}))を求めてみよう。

f:id:ben_key:20200724051513p:plain

手順としては、許容性基準を満たす変数集合Zを特定し、そこから式(2)に当てはめればよい。

今回二つの介入を考えるから、 \displaystyle Z_{1} \displaystyle Z_{2}を二つのステップで特定する。

Z1の特定

 \displaystyle A_{1}について、次の操作を行う。

  •  \displaystyle A_{1}から出るパスを全部切断する
  •  \displaystyle A_{2}に向かうパスを全部切断する

これを実行すると次のグラフになる。

f:id:ben_key:20200724034144p:plain

上のグラフにおいて、次の2条件を満たすような \displaystyle Z_{1}を探す。

  •  \displaystyle Z_{1} \displaystyle  A_{1},A_{2}の子孫ではない
  •  \displaystyle \bigcup_{i=1}^{1} Z_{i}=Z_{1} \displaystyle A_{1} \displaystyle Yを有向分離する

ここから、 \displaystyle Z_{1} = L_{1}となることがわかる。

無事Z1を特定できた。

Z2の特定

Z1と同様に特定する。

 \displaystyle A_{2}について、次の操作を行う。

  •  \displaystyle A_{2}から出るパスを全部切断する
  •  \displaystyle A_{3}=\phiに向かうパスを全部切断する

これを実行すると次のグラフになる。

f:id:ben_key:20200724051528p:plain

上のグラフにおいて、次の2条件を満たすような \displaystyle Z_{2}を探す。

  •  \displaystyle Z_{2} \displaystyle  A_{2}の子孫ではない
  •  \displaystyle A_{1} \cup \bigcup_{i=1}^{2} Z_{i}= A_{1} \cup L_{1} \cup Z_{2} \displaystyle A_{2} \displaystyle Yを有向分離する

 \displaystyle Z_{2}の候補は複数あり、  \displaystyle Z_{2} = L_{2}または  \displaystyle Z_{2} = L_{3}または  \displaystyle Z_{2} = \{L_{2},L_{3}\} が挙げられる。

とくに意味はないけど \displaystyle Z_{2} = L_{3}を選ぶ。

Z2も特定できた。

同時因果効果

特定したZと式(2)から、 \displaystyle p(y|do(A_{1}=a_{1},A_{2}=a_{2}))を求める。 とりあえず書き下してみよう。

 \displaystyle (2) = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(z_{1}) p(z_{2}|z_{1},A_{1}=a_{1})

 \displaystyle Z_{i}に当たる部分を特定したものに書き換えると以下。

 \displaystyle \tag{3} = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(L_{1}) p(L_{3}|L_{1},A_{1}=a_{1})

これが同時因果効果になる。

5. 確認

(3)は、式(2)から計算した同時効果になっている。 元々の定義(1)から計算したものと一致していることを確認しよう。

まず、式(1)の同時効果を書き下そう。 同時分布 \displaystyle p(Y,A,L)は、グラフのマルコフ性を利用して分解する。  \displaystyle \prod_{x} p(x|pa(x))は、グラフの構造から考える。

 \displaystyle (1)=\sum_{L_{1},L_{2},L_{3}}\frac{p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(A_{2}=a_{2} | A_{1}=a_{1},L_{1},L_{2})p(L_{2}|A_{1}=a_{1},L_{3})p(L_{3}|A_{1}=a_{1})p(A_{1}=a_{1}|L_{1})p(L_{1}) }{p(A_{2}=a_{2} | A_{1}=a_{1},L_{1},L_{2})p(A_{1}=a_{1}|L_{1})}

 \displaystyle =\sum_{L_{1},L_{2},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3})  p(L_{2}|A_{1}=a_{1},L_{3})p(L_{3}|A_{1}=a_{1})p(L_{1})

で、 \displaystyle L_{2}は周辺化してしまうと

 \displaystyle \tag{4} (1)=\sum_{L_{1},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{3}|A_{1}=a_{1})p(L_{1})

6. 式(3)と(4)の比較

両方が同じかどうか比較してみよう

 \displaystyle (3) = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{p(L_{3}|L_{1},A_{1}=a_{1})} p(L_{1})

 \displaystyle (4)=\sum_{L_{1},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{p(L_{3}|A_{1}=a_{1})} p(L_{1})

下線部 \displaystyle p(L_{3}|L_{1},A_{1}=a_{1})の部分が違う。

ところで、グラフの構造をよく眺めると、 \displaystyle L_{1} \perp L_{3}|A_{1}が成立しているから、

 \displaystyle p(A_{1},L_{1},L_{3})=\frac{p(A_{1},L_{1})p(A_{1},L_{3})}{p(A_{1})}の関係がある。

これを利用すると、 \displaystyle p(L_{3}|L_{1},A_{1}=a_{1})は次のように変形できる。

 \displaystyle p(L_{3}|L_{1},A_{1}=a_{1}) = \frac{p(A_{1}=a_{1},L_{1},L_{3})}{p(A_{1}=a_{1},L_{1})}

 \displaystyle =\frac{p(A_{1}=a_{1},L_{1})p(A_{1}=a_{1},L_{3})}{p(A_{1}=a_{1},L_{1})p(A_{1}=a_{1})} = p(L_{3} | A_{1}=a_{1})

ということで、「  \displaystyle p(L_{3}|L_{1},A_{1}=a_{1})= p(L_{3} | A_{1}=a_{1}) 」が成立する。

以上をまとめると、同時因果効果の定義通りの値と、許容性基準から求めた同時因果効果が一致することが確認できた。

7. おまけ1:許容性基準の確認方法について

許容性基準を確認する際、介入の個数分だけ \displaystyle Z_{i}を特定するステップを繰り返すことになるんだけど、これがなかなかわかりづらい。 まとめると以下。

手順1  \displaystyle Gを切断したグラフ \displaystyle G_{i}を作成する

1-1: i番目の介入 \displaystyle X_{i} から出る パスを全て切断する

1-2:i+1番目 以降の 介入 \displaystyle X_{i+1} \cdots に向かう パスを全て切断する

手順2 変数集合を特定する

次の条件に合うものを探す。

条件2-1: i番目以降の介入 \displaystyle X_{i} \cdotsの子孫ではない

条件2-2: \displaystyle G_{i}において \displaystyle Z_{i} \cup \bigcup _{j=1}^{i-1} (X_{j} \cup Z_{j}) \displaystyle X_{i} \displaystyle Yを有向分離する

特に、2-2がわかりにくく、「i番目より前の許容性基準を満たす集合と介入の和集合」と「自分自身」の和集合が \displaystyle X_{i} \displaystyle Yを有向分離する、という感じなのがややこしいと感じた。

8. おまけ2:IPWとの関連

こはちょっと自信ないので信用できない。

式(3)から、同時介入時の条件付き分布は以下。

 \displaystyle  \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{3}|L_{1},A_{1}=a_{1}) p(L_{1})

これの分母と分子に \displaystyle p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})をかけると、次のようになる。

 \displaystyle  \sum_{L_{1},L_{3}} \frac{ p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{ p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) } p(L_{3}|L_{1},A_{1}=a_{1}) \underline{p(A_{1}=a_{1} | L_{1})} p(L_{1}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}

良い感じに同時分布に直せるから、

 \displaystyle = \sum_{L_{1},L_{3}} \frac{ p(y,A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}

何となくipwらしい感じになってきた。

ということは、期待値E(y)は多分こう

 \displaystyle E(y)= \sum_{y} \sum_{L_{1},L_{3}} y\frac{ p(y,A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}

同時分布を \displaystyle A_{1}=a_{1}かつ \displaystyle A_{2}=a_{2}のところでのみ積分する感じになるから、指示関数をつけて書き直す気がする。

 \displaystyle E(y)= E \left( \frac{ y I_{A_{1}=a_{1}} I_{A_{2}=a_{2}} }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})} \right)

おそらく、これがこの例におけるIPW定量なのだと思われる。

よくわからないswig

swigの日本語の記事全然見つからなくて辛い。

本題と関係ない話

ところで、DAG(有向非巡回グラフ)はグラフの一種に過ぎず、因果推論の専売特許ではない。

一方、Causal Structureを表現する手段として有用である側面を持つため、 causal DAGとかで呼んだ方が誤解が減るのではないかと思う。

以上、DAGという言葉で因果推論マウントを取るのは筋違いな気がする話。

(あまり細かく言うと言葉狩りになるから、程度問題だとは思うけど。)

参考と図の出典

Single World Intervention Graphs: A Primer

Single World Intervention Graphs (SWIGs):Unifying the Counterfactual and Graphical Approaches to Causality

図は上記から引用。

本題

例の本を読んでいると出てくるSWIG

single interventionにおけるcounter factualを表現するものらしい

最も簡単な例で言うと、次のようなグラフがあったとする。

いつも通り \displaystyle A =\{ 0,1 \}としておく。

 \displaystyle A \rightarrow Y

swigはDAGのノードを分割したりcounter factualなものに入れ替えて作成される。

 \tag{1} \displaystyle A|a \rightarrow Y^{a}

このとき、もしなんかa=0とするような介入を想定すれば、こういう世界線を表す。

 \displaystyle A|a=0 \rightarrow Y^{a=0}

一方、a=1とする介入も当然あり、同様にこう表す。

 \displaystyle A|a=1 \rightarrow Y^{a=1}

両方まとめて、(1)のように書けばいいね。というもののようだ。

swigにする方法

ステップは多分二つ。

ステップ1: interventionの対象となる全てのノードをrandom nodeとfixed nodeにsplitする

random nodeとfixed nodeは次の通りで、パスを受け取る側のノードとパスを出す側のノードに分割している。

ノード 表記 ノードへパスが ノードからパスが
random node 大文字 向かっている 出ていない
fixed node 小文字 向かっていない 出ている

大文字小文字は厳密なルールではないので、あんまり気にしなくて良いと思う。受け取る側と出る側に役割が分かれていることが大事。

例えばノードAをsplitするとこうなる。

f:id:ben_key:20200621113549p:plain

なお、treatmentが複数地点ある場合、全てsplitする。

ステップ2: fixed nodeのdescendantのノードを全て、counter factualな記法に書き換える

splitしたグラフを対象とし、fixed nodeが親であるノードを、 fixed nodeのcounter factualであることがわかるように書き換える。 これはinterventionのノードであっても適用され、(random nodeを)書き換える。

splitしたノードの書き換え例は以下。splitされたノードBやFも書き換えられていることがわかる。

f:id:ben_key:20200621113519p:plain

ちなみに子ではなく子孫であることに注意する。

つかいどころ

random nodeとYの交絡道が切れているか(d-seperatedであるか)判断するようだ。

part3で思い出したように出てくるので困る。

シュミットの内積の性質の確認

目的

以下で定義される、シュミットの内積の残りの性質を確認する。

 \displaystyle \langle A,B \rangle := \sum_{n} \langle A\phi_{n},B\phi_{n} \rangle

以下が確認済みであるとする

 \displaystyle \tag{i} \langle B,A \rangle = \overline{\langle A,B \rangle}

 \displaystyle \tag{ii} \langle aA+bB,C \rangle = a \langle A,C \rangle + b \langle B,C \rangle

 \displaystyle \tag{iii} \langle A,A \rangle \geq 0

 \displaystyle \tag{iv} \langle A^{\ast},B^{\ast} \rangle = \overline{\langle A,B \rangle}

確認したいのは、以下の5つ

 \displaystyle \tag{v} \langle XA,B \rangle =\langle A,X^{\ast}B \rangle

 \displaystyle \tag{vi} \langle AX,B \rangle =\langle A,BX^{\ast} \rangle

 \displaystyle \tag{vii} \langle f \otimes \overline{g} ,A \rangle =\langle f,Ag \rangle

 \displaystyle \tag{viii} \langle A,f \otimes \overline{g}  \rangle =\langle Ag,f \rangle

 \displaystyle \tag{ix} \langle f \otimes \overline{g},u \otimes \overline{v}  \rangle =\langle f,u \rangle \overline{\langle g,v \rangle}

5

まず、 XA,X^{\ast} B \in (\sigma c)になる。シュミットの内積の定義に対して、内積の性質  \langle XA\phi_{n},B\phi_{n} \rangle = \langle A\phi_{n},X^{\ast}B\phi_{n} \rangle  をそのまま突っ込む。

 \displaystyle \langle XA,B \rangle = \sum_{n} \langle XA\phi_{n},B\phi_{n} \rangle =\sum_{n}  \langle A\phi_{n},X^{\ast}B\phi_{n} \rangle=\langle A,X^{\ast}B \rangle

となるのでだいじょうぶそう

6

 \displaystyle \tag{vi} \langle AX,B \rangle \underbrace{=}_{\because iv} \overline{ \langle X^{\ast}A^{\ast},B^{\ast} \rangle }  \underbrace{=}_{\because v}  \overline{ \langle A^{\ast},XB^{\ast} \rangle } \underbrace{=}_{\because iv} \langle A,BX^{\ast} \rangle

7

定義に戻って変形、中に入っているシャッテン積を内積の形に戻し、外側に出す。

 \displaystyle \langle f \otimes \overline{g} ,A \rangle = \sum_{n}   \langle  ( f \otimes \overline{g})\phi_{n},A\phi_{n} \rangle =\sum_{n}  \langle \langle \phi_{n},g \rangle f,A\phi_{n} \rangle=\sum_{n} \langle \phi_{n},g \rangle \langle f,A\phi_{n} \rangle

共役の形で書き換えて、欲しい形にする。

 \displaystyle = \sum_{n} \langle A^{\ast}f,\phi_{n} \rangle  \overline{\langle g,\phi_{n} \rangle}= \langle A^{\ast}f,g \rangle= \langle f,Ag \rangle

8

 \displaystyle \langle A,f \otimes \overline{g}  \rangle =\overline{\langle f \otimes \overline{g},A  \rangle} \underbrace{=}_{\because vii} \overline{\langle f,Ag \rangle}=\langle Ag,f \rangle

9

 \displaystyle \langle f \otimes \overline{g},u \otimes \overline{v}  \rangle = \langle (f \otimes \overline{g})v, u \rangle = \langle v,g \rangle \langle f,u \rangle = \langle f,u \rangle \overline{\langle g,v \rangle}

作用素をなんか良い感じに分解する

概要

任意の作用素 \displaystyle A に対して、 \displaystyle A^{\ast}A が半正値自己共役なので、平方根 \displaystyle (A^{\ast}A)^{- \frac{1}{2}} が一意に定まる。  \displaystyle [ A ] と書く。

Aは、 \displaystyle [A] と部分等長作用素 \displaystyle W を用いて、 \displaystyle A=W[A] と書ける。これを極分解と呼ぶらしい。

これは、ヒルベルト空間の作用素ABに対して、 \displaystyle A^{\ast}A=B^{\ast}B が成立するなら、部分等長作用素Wを用いて \displaystyle A=WB と表すことができるため

で、極分解に関して以下の三つが成立する。

その1: \displaystyle [A] =W^{\ast}A

 \displaystyle [A] =(W^{\ast}W)[A] =W^{\ast} (W[A] ) =W^{\ast}A

部分等長作用素の性質をいろいろ持ち出したけど省略。

その2: \displaystyle [A^{\ast}] =W [A] W^{\ast}

 \displaystyle W^{\ast} W[A] =[ A ] だから、

 \displaystyle (W [A] W^{\ast})(W [A] W^{\ast})=W [A]( W^{\ast}W [A]) W^{\ast} = (W [A])(  [A] W^{\ast})=AA^{\ast}=[A^{\ast}]^{2}

 \displaystyle [ A ] は半正値作用素なので、W [A] W^{\ast}も半正値作用素となる。 だから平方根とってよくって

 \displaystyle W [A] W^{\ast} = [A^{\ast}]

が成立する。

その3: \displaystyle A^{\ast} =W^{\ast}[A^{\ast}]

 \displaystyle W^{\ast}[A^{\ast}] = W^{\ast} W[A] W^{\ast}=[A] W^{\ast} = (W[A])^{\ast}=A^{\ast}

あなたのmatchは何match?

概要

matchingってなんなの?みたいな感じの妄言

基本的な話は全て省略する。

ちなみにps matchingがrctをmimickingしてるとか、そう言う話にも触れない。

今回のテーマは「使用法という意味で使いやすい手法について、その意図や背景が理解しやすいかと言うのは全く別の話なのだなぁ」とした。

そもそもmatchingってなんのためにやるのか

(因果推論における)matchingは、「自分と近しい集団は比較可能だよね」という考えが根底にある。

そこで、同じ属性を持つ個体(あるいはなんらかの尺度で近い個体)を集めて、 その集合で適当に計算をする。

そうして求めた統計量を、何かの効果だとみなしたいのだ

matchingが計算しているものは何か

matcingの注意点として「マッチングによって求めた量が一体何を表すかは自明とは限らない」が挙げられる。

以下でそれをなんとなく考えてみよう。

視点1 データのバランス

例えばuntreated:treated=1:1で全部きれいにマッチしたら、matchingに用いたデータ(つまり取得したデータ全体)に対するaverage treatment effectであると考えれば良い。*1

一方、世の中でマッチングに用いるデータは「untreatedが少ない」とか「treatedが少ない」といった場合がある。

新規の治療法とか、重症の人専用とか、何でも良いが、常にbalancedとは限らない。

さて、そのようにunbalancedなデータをmatchingし計算した量(効果)は一体ナニモノなんだろうか。

例1:treatedが少ない場合

少数のtreatedにマッチする個体を多数のuntreatedから探してきて、全てのtreatedな個体にマッチング相手が探されてきたとしよう。

この場合、求めているのはATTに近くなる。

treated全員に対してmatchするペアを作り直したからだ。

マッチした集団については、internal validityを満たすと考えてよいのだろう。

例2:untreatedが少ない場合

こちらは少数のuntreatedにtreatedを探してくる作業になる。

ATUに近いと考えれば良い(はず)。理由は、上と逆の状況であるから。

例3:なんとなく困るとき

上記の例1と例2から「nが少ない方の集団全体がきれいにマッチしたら、ATTとかATUに似た値が計算できそう」なことは分かった。

実際問題として、そもそも少数の方が全てマッチされるとは限らず、少数の方すら捨てられる個体が存在する。

例えば、いたずらにキャリパーを小さくしたPSMを考えると、少数派の全てがマッチしないことは容易に想像できるよね

こうなると話がややこしくなる。 matched pairは、少数派の中で代表性を持つわけではなく、単に値が近いからマッチしただけなのだ。

ここで計算された効果はATTでもATUでもない。極端には、「treatedの中で、なんか値が似てるものを集めた集団での効果」となるのだ。

「いかなるmodifierもない!」と考えられる場合を除き、これが我々のresearch questionの答えに足る量なのだろうか。

視点2:modifierがあったら?

modifierがあったらmatchingはどうなんねん!と言う話が出た。

絶対にあり得ないと思うが、「modifierでstratifyした集団ごとにmatchして、それがカンペキにmatchしたら、もしかしたら調整してATE計算できるのでは?」と思った。

しかし、modifierのバランスが狂っている状況を生み出す原因を考察し始めると、単純な話でもなさそう。

例えばこんな集団、性別がmodifierだったとする。

(諸々の条件は成立するってことで)

A 性別 割合(%) counterfactual outcome
1 5 a
1 15 b
0 55 0
0 25 0

この例では、男にはa、女にはbの効果。

modifierをガン無視し、ばっちりマッチしたとすると \displaystyle \frac{a+3b}{4}、これはATTでもある。

でもこれ、男:女=6:4だからATEは \displaystyle \frac{3a+2b}{5}

男だけマッチするとconditionalなeffectでaが求められる。 女だけでマッチすると同様にbが求められる。

これをmodifierの比率でウェイトバックすると、 \displaystyle \frac{3a+2b}{5}になってATEになっているから、matchingでも計算できて嬉しい・・・?

注意:言うまでもないが、層別してもmatchingが必ず成立する非常に限定的な状況

ほぼ間違いなく上記の例は、あまりにも単純すぎて本来考えるべき状況をmimickできていない気がする。

例えば、以下の例なら男女のマッチペアが存在できるため一気にややこしくなりそう。 そもそも層別してさらにマッチングとか、positivity死にそうな気がするけどいいの?とか。疑問は尽きない。

A 性別 割合(%) counterfactual outcome
1 5 a
1 15 b
0 55 c
0 25 d

思ったこと

いや、IPW使いますよね、ここまできたら。

ていうかconditional effectを求めるためにmatching使っただけで、ウェイトバックってipwですよね。

*1:そんな良いデータが存在するのかはここでは考えない