2020-08-08

ひかりのちからで

にっきちょう

disclaimer

これはあくまで自分の体験談

読者に適用できるかは、自身の状況と比較してよく考えてほしい。

（ちなみにこの記事は、友人への情報提供として書いてある。このブログの内容としては異色だけど無視して）

当時の自分の目的

いわゆる"ひげ"を対象とした。腕とか脚については、対象外とした。

ただし、これはサービスなど選択肢に影響を与えるため、注意が必要。

全身脱毛だと価格帯が異なり、40とか50かかるのでこの記事は役に立たない。

サービスの選択肢

一般に、医療とエステがあると言われている。

適当にネットで検索すると、効果がありそうなので医療を選ぶことにした。なお、エビデンスは知らない。

クリニックの選択肢

自分で調べた時は、風水みたいな名前の方と、ウホウホしてそうな方が候補に上がった。*1

結果的に、風水を選んだ。

クリニック	風水	ウホウホ
リンク	ここ	ここ
価格	6くらい	7くらい
施術時間の制限	特になし	平日11:00〜15:00
部位	口の周り+顎	口の周り+顎

上の表を見ると、値段は大して変わらないのだが、ウホウホの方は平日の昼しか受け付けてくれない。夕方や土日に施術を受けたければ、 2万円の有料オプション を追加する必要がある。風水の方はそうではなく、土日も受けられる。

また、頬とか首の上の方は対象になっていない。これを含めると、価格帯は以下のように変わる。

クリニック	風水	ウホウホ
リンク	ここ	ここ
価格	10	13
施術時間の制限	特になし	平日11:00〜15:00
部位	口+顎+頬+首の上	口+顎+頬

次の観点で決定した。

値段
受付時間
部位の多さ

ちなみに、規定された回数を、特定の期間内に受ける必要があった。6ヶ月間に5回、だった気がする。

1回受けたら1ヶ月以上空ける必要がある*2。きっちり受けていれば問題ないが、飽きてサボると追加費用が発生する*3仕組みになっている。

効果

何回か受けるまで効果を実感できない、ということはなかった。

初回から結構効果があり、3割くらいは抜け落ちる。

通うごとに薄くなる面積が増えていく感じ。ただし産毛みたいなのは残り、根絶には至っていない。

何回通えば良いか

10回〜15回は通う必要がある。

今10回受けていて、かなり改善したが、それでも終わってないと感じる。

先の価格表は、いずれも5~6回分の値段である。しかしこの回数では足りず、追加で受ける必要がある。

ただし追加料金は1回100円くらいなので、金額的には気にならない。

痛み

全く痛くないと聞かれれば、それは嘘。しかし、止めて欲しくなるほど痛かったことはなく、麻酔が必要だと感じたことはない*4。

輪ゴムを引っ張ってぺちん、みたいな喩え話をされることがある。今試してみたら輪ゴムの方が痛かった。

選択したクリニックは、レーザーでバチバチされる時間は毎回10分ほどしかなく、短い。10分間耐えられるなら、痛みは問題にならない。

痛みは特に個人差があるから、注意しよう。

アフターケア

施術後、毛嚢炎ができる。小さいニキビみたいなイメージ。

病院によっては抗生剤を処方してもらえるので、それを飲むと予防できる。ただし500円かかる。

ちなみに、7~8回目付近で抗生剤を処方してもらわなかった回がある。「薄くなったしそろそろ大丈夫かな」と油断したら毛嚢炎ができた。

一過性のものなので、清潔にしてるときちんと治る。

施術の流れ

1週間前くらいに予約する
当日、きちんと剃ってから通院する
施術でバチバチされる & 冷やされる。30分程度で終了
2週間後、太い毛が抜け落ちる

どう変わったか

Before

普通くらいの濃さ
剃るのが嫌だったのでぶちぶち抜いていた

After

相当薄くなった
太い毛はほぼ生えない
細い毛は生える。目が悪いのでかなり鏡に近寄らないと見えない

*1:名前は無意味にぼかしてある。

*2:施術が多くなる程、この期間は長くなる

*3:得ができない、と言い換えてもよい

*4:そもそも自分が選んだ方は麻酔がない

2020-07-29

標本化基底と直交

担当分

領域 $\displaystyle \mathbb{D}$ 上で定義された関数上で構成されている有限N次元ヒルベルト空間 $\displaystyle H_{K}$ がある、。

ここに標本点が $\displaystyle \{ x_{n} \}_{n=1}^{N}$ 、重みが $\displaystyle \{ w_{n} \}_{n=1}^{N}$ となる正規直交標本化基底が存在する時、N個の関数の組 $\displaystyle \{ u_{n} \}_{n=1}^{N}$ に対して、次の3条件が互いに同値であることを確認する。

なお、 $\displaystyle m,n=1, \cdots , N$ である

(i) $\displaystyle \langle u_{m} , u_{n} \rangle = \delta _{m,n}$

(ii) $\displaystyle \sum_{l=1}^{N} |w_{l}|^{2} u_{m}(x_{l}) , u_{n}(x_{l}) = \delta _{m,n}$

(iii) $\displaystyle \sum_{l=1}^{N} u_{l}(x_{m}) , u_{l}(x_{n}) = K(x_{n},x_{n}) \delta _{m,n}$

以下で確認していく

$\displaystyle (i) \Leftrightarrow (ii)$

まず、 $\displaystyle u_{m}(x) = \sum_{l=1}^{N} w_{l} u_{m}(x_{n}) , \phi_{n}(x)$ と書けることがわかる。( $\phi$ はいい感じの基底)

このとき内積がこういうかんじになる。

$\displaystyle \langle u_{p} u_{q} \rangle = \langle \sum_{n=1}^{N} w_{n} u_{p}(x_{n}) , \phi_{n}(x) , \sum_{m=1}^{N} w_{m} u_{q}(x_{m}) , \phi_{m}(x) \rangle$

内積の性質を使って

$\displaystyle = \sum_{m=1}^{N} \sum_{n=1}^{N} w_{n} \overline{w_{m}} u_{p}(x_{n}) \overline{u_{q}(x_{m})} \delta_{m,n}$

なんだけど、これだと(i)と(ii)が同値っぽい・・・のか？

$\displaystyle (ii) \Leftrightarrow (iii)$

まず、 $\displaystyle u_{m,n}=w_{m}u_{n}(x_{m})$ と書くことにする。次に、 $\displaystyle u_{m,n}^{*}= \overline{u_{n,m}}$ と書くことにする。

こうすると、次のように書き直すことができる。

(ii) $\displaystyle \sum_{l=1}^{N} u_{n,l}^{*} u_{l,m} = \delta _{m,n}$

(iii) $\displaystyle \sum_{l=1}^{N} u_{m,l} u_{l,n}^{*} = \delta _{m,n}$

それぞれが、サイズ(n,n)の行列 $\displaystyle u_{m,n}$ について、ユニタリである条件を表しているため、同値である。

2020-07-29

ぎょうれつとないせき

担当分

RKHSな $\displaystyle H_{k}$ があるとする。

任意に固定したp個の点 $\displaystyle \{ x_{n}\}_{n=1}^{p}\subset \mathbb{D}$ に対して、 $\displaystyle f(x),g(x) \in H_{k}$ を次のようにおく。

$\displaystyle f(x)= \sum_{n=1}^{p}\alpha_{n} K(x,x_{n})$

$\displaystyle g(x)= \sum_{n=1}^{p}\beta_{n} K(x,x_{n})$

(m,n)成分が $\displaystyle K(x_{m},x_{n})$ となるようなp次正方行列をKと表す。

また、 $\displaystyle \{ \alpha_{n}\}_{n=1}^{p} ,\{ \beta_{n}\}_{n=1}^{p}$ のベクトルをそれぞれ $\displaystyle \alpha , \beta$ と書くことにする。

このとき、 $\displaystyle \langle f,g \rangle =\langle K \alpha, \beta \rangle$ となることを示したい。

とりあえず左辺にfとgの関係を突っ込んで

$\displaystyle \langle f,g \rangle =\langle \sum_{n=1}^{p}\alpha_{n} K(x,x_{n}) ,\sum_{m=1}^{p}\beta_{m} K(x,x_{m}) \rangle$

内積の性質を使って変形して

$\displaystyle = \sum_{m=1} \sum_{n=1} \overline{\beta_{m}} \alpha_{n} \langle K(x,x_{n}), K(x,x_{m}) \rangle$

再生核の性質から内積を書き換えて

$\displaystyle = \sum_{m=1} \sum_{n=1} \overline{\beta_{m}} \alpha_{n} K(x_{m},x_{n})$

内積の定義を思い出すと

$\displaystyle = \langle K \alpha , \beta \rangle$

2020-07-26

consistent estimatorを分散から確認することの是非

懺悔室

どこかに似たような記事があるが、気にしないことにする。仮に似てたとして、その記事を書いたのは私なので、何らパクリではない。

導入

とある勉強会で、estimatorが持って欲しい性質として、"unbiasedness"と"varianceが小"が挙げられていた。

で、"varianceが小"というのは文脈的にconsistencyを指しているようだった。

今回はこれに着目し、consistencyを分散と言う言葉で表現する(or理解)ことについて、そのjustificationを考えてみよう。

答えだけ先に書いておくと、「consistencyを推定量の分散が0になる性質と理解するのは厳密には正しくない*1。 ただし、大抵の場合、別にその理解で全く問題ない 」である。

なお、本記事の目的は、発表者への文句ではなく、一般的な方便の重箱をつついて、方便が意味するところを再確認するものである。

consistencyとは

一致性あるいは測度収束のこと。

具体的には推定量が真値の $\displaystyle \varepsilon$ 近傍をはみ出す確率の極限が0になること。

詳しくは普通の統計の教科書を参考。

consistencyが成立することを確認する方法

いくつかの候補がある。

方法1:定義から確認する
方法2チェビシェフの不等式から確認する
方法3:別の方法を経由して確認する

今回確認すること

「consistencyは推定量の分散が0になる性質」という方便を、上記の方法で確認する。

その結果、方便が実はちょっと怪しく、一部の反例が存在すること。

確認に使用する例

wikipediaより引用

$https://wikimedia.org/api/rest_v1/media/math/render/svg/e585632f24f322d896520f5b8756450f16d7105f$

これは、 $\displaystyle E(T_{n})=\theta + \delta$ となるからbiased。だけどconsistentという少し変な性質を持っている。

上述の方法を用いてconsistencyを持つことを確認しよう。

方法1で確認する

それなりの $\displaystyle \delta$ を考えると、真値 $\displaystyle \theta$ をはみ出る確率は $\displaystyle Pr(|T_{n}-\theta | > \varepsilon) = \frac{1}{n}$ となる。

ということは、nを飛ばすと0になる。

だから、consistencyを持つことになる。

方法2で確認する

チェビシェフの不等式を適用するためには、 $\displaystyle T_{n}$ の平均と分散が必要になる。*2

というわけで平均と分散を計算しよう。

$\displaystyle E(T_{n}) = \left( 1- \frac{1}{n} \right) \theta + \left( \frac{1}{n} \right) ( n\delta + \theta) =\theta + \delta$

$\displaystyle V(T_{n}) = \left( 1- \frac{1}{n} \right) (- \delta) ^{2} + \left( \frac{1}{n} \right) ( n \delta - \delta )^{2} = \left( 1- \frac{1}{n} \right) \delta ^{2} + \frac{(n-1) ^2 \delta ^2 }{n}$

さて、nの極限を考えると、 $T_{n}$ は有限の分散を持たない ことがわかった。

チェビシェフの不等式は、有限の分散を持つ場合にしか適用できないので、方法2ではconsistencyを確認できない。残念。

というか、この時点で「一致性を持つのに分散が無限になる」ことが判明した。さて、困った。

方法3で確認する

別の方法の例として、ここでは確率収束より厳しい条件であるL2収束と同値な条件を経由する方法を用いる。

最初に、次の二つの条件を考える。

条件1: $\displaystyle E(T_{n})$ がasymptotic unbiasedかつ、収束先が定数
条件2: $\displaystyle V(T_{n})$ のasymptoticに0

上記の2条件が成立する時、 $\displaystyle T_{n}$ はL2の意味で収束する。また、「L2収束するなら確率収束する」という性質を用いると、「条件1と条件2が成立する時、 $\displaystyle T_{n}$ は収束先の定数に確率収束する」ことがわかる。

しかし、残念ながら漸近分散が0にならないので、やはりこの方法でもconsistencyは確認できない。

確認結果から言えること

$\displaystyle T_{n}$ は分散0にならない(無限大になる)のに、consistencyを満たすことがわかった。

つまり、consistency（確率収束）と推定量の分散が0になることは同値ではない 。

その意味で最初に述べた方便は正しくない。

ただし、方法3は方便とかなり近いことを述べていて、「consistencyとは、推定量の分散が小さくなること」が実は結構正しいことも同時にわかる。しかしこの時、asymptotically unbiasedを合わせて述べておくのがベターである。 (退化するような場合、consistencyを"漸近不偏"と"漸近分散が0"と表現することに間違いがない、の意味)

結局何が言いたいんですか？

ぶっちゃけ、推定量の分散が小さくなって、かつ漸近不偏かつ定数ならconsistencyと言っていいと思う。

あと、wikipediaの例は確かに成立してるんだけど、practicalに実在しそうな例にして欲しい。もちろん、実務家のためのwebサイトではないので、お門違いな意見であることは百も承知である。

*1:条件が足りない

*2:そもそも論として、これは平均周りの評価をする不等式であって、今回評価したいθの近傍を評価してない。その時点で「それで何がしたいの？」くらいに思う。

2020-07-24

20章の例題をといてみる

ポエム

前回の記事で練習した同時介入効果の式を使って、実際に例の本の例題データが解けることを確認する。

データ

N	$\displaystyle A_{0}$	$\displaystyle L_{1}$	$\displaystyle A_{1}$	Y
2400	0	0	0	84
1600	0	0	1	84
2400	0	1	0	52
9600	0	1	1	52
4800	1	0	0	76
3200	1	0	1	76
1600	1	1	0	44
6400	1	1	1	44

書籍のTable 20.1と同じもの

グラフ

f:id:ben_key:20200724144203p:plain

書籍のFigure20.3と同じもの

解く

まず、同時介入のための $\displaystyle Z_{1}$ と $\displaystyle Z_{2}$ を特定する。

構造が簡単なので、比較的簡単。

$\displaystyle Z_{1}$ を特定する。 $\displaystyle A_{0}$ から出るパスと $\displaystyle A_{1}$ に向かうパスを切断したものは以下。

f:id:ben_key:20200724144214p:plain

$\displaystyle A_{0}$ と $\displaystyle Y$ は切れているので、 $\displaystyle Z_{1}=\phi$ であることがわかる。

次に $\displaystyle Z_{2}$ を特定する。 $\displaystyle A_{1}$ パス出てないし $\displaystyle A_{2}$ がそもそも存在しないため切断不要、グラフは以下。

f:id:ben_key:20200724144203p:plain

$\displaystyle A_{0} \cup Z_{2}$ が $\displaystyle A_{1}$ と $\displaystyle Y$ を有向分離するには、 $\displaystyle Z_{2}=L_{1}$ とすればよい。

で以上で特定はできた。前回求めた同時効果の式から、計算式は以下になる。

$\displaystyle E(Y|do(A_{0},A_{1}))=\sum_{L_{1}} E(Y|A_{0},A_{1},L_{1})p(L_{1}|A_{0})$

あとは表から数字を引っ張ってきて、 $\displaystyle E(Y|do(A_{0}=0,A_{1}=0))$ と $\displaystyle E(Y|do(A_{0}=1,A_{1}=1))$ を計算しよう。

まず前者のnever treatを計算する。

$\displaystyle E(Y|do(A_{0}=0,A_{1}=0))$

$\displaystyle =E(Y|A_{0}=0,A_{1}=0,L_{1}=0)p(L_{1}=0|A_{0}=0) \\ +E(Y|A_{0}=0,A_{1}=0,L_{1}=1)p(L_{1}=1|A_{0}=0)$

$\displaystyle =84\frac{1600+2400}{16000} + 52\frac{2400+9600}{16000}=21+39=60$

次に後者のalways treatを計算する。

$\displaystyle E(Y|do(A_{0}=1,A_{1}=1))$

$\displaystyle =E(Y|A_{0}=1,A_{1}=1,L_{1}=0)p(L_{1}=0|A_{0}=1) \\ +E(Y|A_{0}=1,A_{1}=1,L_{1}=1)p(L_{1}=1|A_{0}=1)$

$\displaystyle =76\frac{4800+3200}{16000} + 44\frac{1600+6400}{16000}=38+22=60$

以上から、このcontrastは以下の通り0(因果効果なし)となる。正しい結果になった。

$\displaystyle E(Y|do(A_{0}=1,A_{1}=1))-E(Y|do(A_{0}=0,A_{1}=0))=60-60=0$

2020-07-24

同時介入を書く練習

ポエム

part3で出てくる同時効果の練習

ただしipwによる表記ではない。

前半では同時介入の定義や効果の定義を紹介し、後半では簡単な例で同時介入効果を確認する。

1. 同時因果効果

因果ダイアグラムGにおける頂点集合を $\displaystyle X \cup \{ Y \} \cup Z$ とする。次を同時因果効果という。

$\displaystyle \tag{1} p(y|do(X=x))=\sum_{z} \frac{p(x,y,z)}{\prod_{x} p(x|pa(x))}$

2. 許容性基準

非巡回で有向なグラフGにおいて、 $\displaystyle X=\{X_{1} \cdots X_{p}\}$ の各頂点がYの非子孫であり、 $\displaystyle X_{i}$ は $\displaystyle X_{i+1}$ の非子孫となるように並べられているとする。

このとき、次の2条件を満たす変数集合 $\displaystyle Z_{1} \cup \cdots \cup Z_{p}$ は $\displaystyle (X,Y)$ について許容性基準を満たすという。

条件1

任意の $\displaystyle i(i=1,\cdots,p)$ について、 $\displaystyle Z_{i}$ は $\displaystyle X_{i} \cdots X_{p}$ の非子孫からなる頂点集合である。

条件2

任意の $\displaystyle i(i=1,\cdots,p)$ について、Gから $\displaystyle X_{i+1} \cdots X_{p}$ に向かう全ての矢線と $\displaystyle X_{i}$ から出る全ての矢線を取り除いたグラフにおいて $\displaystyle \{X_{1} \cdots X_{i-1}\} \cup Z_{1} \cup \cdots \cup Z_{i}$ は $\displaystyle X_{i}$ と $\displaystyle Y$ を有向分離する。

3. 識別可能な時の効果の式

許容性基準を議論できるようなグラフGにおいて、許容性基準を満たす頂点集合が観測されていれば、同時因果効果は識別可能であり、次の式で計算することができる。

$\displaystyle \tag{2} p(y|do(X=x))=\sum_{z} p(y|x,z) \prod_{i=1}^{p} p(z_{i}|z_{1},\cdots , z_{i-1},x_{1},\cdots , x_{i-1})$

4. 例

次の図のようなcausal-DAGについて、同時因果効果 $\displaystyle p(y|do(A_{1}=a_{1},A_{2}=a_{2}))$ を求めてみよう。

f:id:ben_key:20200724051513p:plain

手順としては、許容性基準を満たす変数集合Zを特定し、そこから式(2)に当てはめればよい。

今回二つの介入を考えるから、 $\displaystyle Z_{1}$ と $\displaystyle Z_{2}$ を二つのステップで特定する。

Z1の特定

$\displaystyle A_{1}$ について、次の操作を行う。

$\displaystyle A_{1}$ から出るパスを全部切断する
$\displaystyle A_{2}$ に向かうパスを全部切断する

これを実行すると次のグラフになる。

f:id:ben_key:20200724034144p:plain

上のグラフにおいて、次の2条件を満たすような $\displaystyle Z_{1}$ を探す。

$\displaystyle Z_{1}$ は $\displaystyle A_{1},A_{2}$ の子孫ではない
$\displaystyle \bigcup_{i=1}^{1} Z_{i}=Z_{1}$ が $\displaystyle A_{1}$ と $\displaystyle Y$ を有向分離する

ここから、 $\displaystyle Z_{1} = L_{1}$ となることがわかる。

無事Z1を特定できた。

Z2の特定

Z1と同様に特定する。

$\displaystyle A_{2}$ について、次の操作を行う。

$\displaystyle A_{2}$ から出るパスを全部切断する
$\displaystyle A_{3}=\phi$ に向かうパスを全部切断する

これを実行すると次のグラフになる。

f:id:ben_key:20200724051528p:plain

上のグラフにおいて、次の2条件を満たすような $\displaystyle Z_{2}$ を探す。

$\displaystyle Z_{2}$ は $\displaystyle A_{2}$ の子孫ではない
$\displaystyle A_{1} \cup \bigcup_{i=1}^{2} Z_{i}= A_{1} \cup L_{1} \cup Z_{2}$ が $\displaystyle A_{2}$ と $\displaystyle Y$ を有向分離する

$\displaystyle Z_{2}$ の候補は複数あり、 $\displaystyle Z_{2} = L_{2}$ または $\displaystyle Z_{2} = L_{3}$ または $\displaystyle Z_{2} = \{L_{2},L_{3}\}$ が挙げられる。

とくに意味はないけど $\displaystyle Z_{2} = L_{3}$ を選ぶ。

Z2も特定できた。

同時因果効果

特定したZと式(2)から、 $\displaystyle p(y|do(A_{1}=a_{1},A_{2}=a_{2}))$ を求める。とりあえず書き下してみよう。

$\displaystyle (2) = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(z_{1}) p(z_{2}|z_{1},A_{1}=a_{1})$

$\displaystyle Z_{i}$ に当たる部分を特定したものに書き換えると以下。

$\displaystyle \tag{3} = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{1}) p(L_{3}|L_{1},A_{1}=a_{1})$

これが同時因果効果になる。

5. 確認

(3)は、式(2)から計算した同時効果になっている。元々の定義(1)から計算したものと一致していることを確認しよう。

まず、式(1)の同時効果を書き下そう。同時分布 $\displaystyle p(Y,A,L)$ は、グラフのマルコフ性を利用して分解する。 $\displaystyle \prod_{x} p(x|pa(x))$ は、グラフの構造から考える。

$\displaystyle (1)=\sum_{L_{1},L_{2},L_{3}}\frac{p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(A_{2}=a_{2} | A_{1}=a_{1},L_{1},L_{2})p(L_{2}|A_{1}=a_{1},L_{3})p(L_{3}|A_{1}=a_{1})p(A_{1}=a_{1}|L_{1})p(L_{1}) }{p(A_{2}=a_{2} | A_{1}=a_{1},L_{1},L_{2})p(A_{1}=a_{1}|L_{1})}$

$\displaystyle =\sum_{L_{1},L_{2},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{2}|A_{1}=a_{1},L_{3})p(L_{3}|A_{1}=a_{1})p(L_{1})$

で、 $\displaystyle L_{2}$ は周辺化してしまうと

$\displaystyle \tag{4} (1)=\sum_{L_{1},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{3}|A_{1}=a_{1})p(L_{1})$

6. 式(3)と(4)の比較

両方が同じかどうか比較してみよう

$\displaystyle (3) = \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{p(L_{3}|L_{1},A_{1}=a_{1})} p(L_{1})$

$\displaystyle (4)=\sum_{L_{1},L_{3}}p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{p(L_{3}|A_{1}=a_{1})} p(L_{1})$

下線部 $\displaystyle p(L_{3}|L_{1},A_{1}=a_{1})$ の部分が違う。

ところで、グラフの構造をよく眺めると、 $\displaystyle L_{1} \perp L_{3}|A_{1}$ が成立しているから、

$\displaystyle p(A_{1},L_{1},L_{3})=\frac{p(A_{1},L_{1})p(A_{1},L_{3})}{p(A_{1})}$ の関係がある。

これを利用すると、 $\displaystyle p(L_{3}|L_{1},A_{1}=a_{1})$ は次のように変形できる。

$\displaystyle p(L_{3}|L_{1},A_{1}=a_{1}) = \frac{p(A_{1}=a_{1},L_{1},L_{3})}{p(A_{1}=a_{1},L_{1})}$

$\displaystyle =\frac{p(A_{1}=a_{1},L_{1})p(A_{1}=a_{1},L_{3})}{p(A_{1}=a_{1},L_{1})p(A_{1}=a_{1})} = p(L_{3} | A_{1}=a_{1})$

ということで、「 $\displaystyle p(L_{3}|L_{1},A_{1}=a_{1})= p(L_{3} | A_{1}=a_{1})$ 」が成立する。

以上をまとめると、同時因果効果の定義通りの値と、許容性基準から求めた同時因果効果が一致することが確認できた。

7. おまけ1:許容性基準の確認方法について

許容性基準を確認する際、介入の個数分だけ $\displaystyle Z_{i}$ を特定するステップを繰り返すことになるんだけど、これがなかなかわかりづらい。まとめると以下。

手順1 $\displaystyle G$ を切断したグラフ $\displaystyle G_{i}$ を作成する

1-1： i番目の介入 $\displaystyle X_{i}$ から出る パスを全て切断する

1-2：i+1番目 以降の 介入 $\displaystyle X_{i+1} \cdots$ に向かう パスを全て切断する

手順2 変数集合を特定する

次の条件に合うものを探す。

条件2-1： i番目以降の介入 $\displaystyle X_{i} \cdots$ の子孫ではない

条件2-2： $\displaystyle G_{i}$ において $\displaystyle Z_{i} \cup \bigcup _{j=1}^{i-1} (X_{j} \cup Z_{j})$ が $\displaystyle X_{i}$ と $\displaystyle Y$ を有向分離する

特に、2-2がわかりにくく、「i番目より前の許容性基準を満たす集合と介入の和集合」と「自分自身」の和集合が $\displaystyle X_{i}$ と $\displaystyle Y$ を有向分離する、という感じなのがややこしいと感じた。

8. おまけ2:IPWとの関連

ここはちょっと自信ないので信用できない。

式(3)から、同時介入時の条件付き分布は以下。

$\displaystyle \sum_{L_{1},L_{3}} p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) p(L_{3}|L_{1},A_{1}=a_{1}) p(L_{1})$

これの分母と分子に $\displaystyle p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})$ をかけると、次のようになる。

$\displaystyle \sum_{L_{1},L_{3}} \frac{ p(y|A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) \underline{ p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) } p(L_{3}|L_{1},A_{1}=a_{1}) \underline{p(A_{1}=a_{1} | L_{1})} p(L_{1}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}$

良い感じに同時分布に直せるから、

$\displaystyle = \sum_{L_{1},L_{3}} \frac{ p(y,A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}$

何となくipwらしい感じになってきた。

ということは、期待値E(y)は多分こう

$\displaystyle E(y)= \sum_{y} \sum_{L_{1},L_{3}} y\frac{ p(y,A_{1}=a_{1},A_{2}=a_{2},L_{1},L_{3}) }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})}$

同時分布を $\displaystyle A_{1}=a_{1}$ かつ $\displaystyle A_{2}=a_{2}$ のところでのみ積分する感じになるから、指示関数をつけて書き直す気がする。

$\displaystyle E(y)= E \left( \frac{ y I_{A_{1}=a_{1}} I_{A_{2}=a_{2}} }{p( A_{2}=a_{2} | A_{1}=a_{1}, L_{1},L_{3}) p(A_{1}=a_{1} | L_{1})} \right)$

おそらく、これがこの例におけるIPW推定量なのだと思われる。

2020-06-21

よくわからないswig

ポエム

swigの日本語の記事全然見つからなくて辛い。

本題と関係ない話

ところで、DAG(有向非巡回グラフ)はグラフの一種に過ぎず、因果推論の専売特許ではない。

一方、Causal Structureを表現する手段として有用である側面を持つため、 causal DAGとかで呼んだ方が誤解が減るのではないかと思う。

以上、DAGという言葉で因果推論マウントを取るのは筋違いな気がする話。

(あまり細かく言うと言葉狩りになるから、程度問題だとは思うけど。)

参考と図の出典

Single World Intervention Graphs: A Primer

Single World Intervention Graphs (SWIGs):Unifying the Counterfactual and Graphical Approaches to Causality

図は上記から引用。

本題

例の本を読んでいると出てくるSWIG

single interventionにおけるcounter factualを表現するものらしい

最も簡単な例で言うと、次のようなグラフがあったとする。

いつも通り $\displaystyle A =\{ 0,1 \}$ としておく。

$\displaystyle A \rightarrow Y$

swigはDAGのノードを分割したりcounter factualなものに入れ替えて作成される。

$\tag{1} \displaystyle A|a \rightarrow Y^{a}$

このとき、もしなんかa=0とするような介入を想定すれば、こういう世界線を表す。

$\displaystyle A|a=0 \rightarrow Y^{a=0}$

一方、a=1とする介入も当然あり、同様にこう表す。

$\displaystyle A|a=1 \rightarrow Y^{a=1}$

両方まとめて、(1)のように書けばいいね。というもののようだ。

swigにする方法

ステップは多分二つ。

ステップ1: interventionの対象となる全てのノードをrandom nodeとfixed nodeにsplitする

random nodeとfixed nodeは次の通りで、パスを受け取る側のノードとパスを出す側のノードに分割している。

ノード	表記	ノードへパスが	ノードからパスが
random node	大文字	向かっている	出ていない
fixed node	小文字	向かっていない	出ている

大文字小文字は厳密なルールではないので、あんまり気にしなくて良いと思う。受け取る側と出る側に役割が分かれていることが大事。

例えばノードAをsplitするとこうなる。

f:id:ben_key:20200621113549p:plain

なお、treatmentが複数地点ある場合、全てsplitする。

ステップ2: fixed nodeのdescendantのノードを全て、counter factualな記法に書き換える

splitしたグラフを対象とし、fixed nodeが親であるノードを、 fixed nodeのcounter factualであることがわかるように書き換える。これはinterventionのノードであっても適用され、(random nodeを)書き換える。

splitしたノードの書き換え例は以下。splitされたノードBやFも書き換えられていることがわかる。

f:id:ben_key:20200621113519p:plain

ちなみに子ではなく子孫であることに注意する。

つかいどころ

random nodeとYの交絡道が切れているか(d-seperatedであるか)判断するようだ。

part3で思い出したように出てくるので困る。