2020-04-28

きたいちのメモ

ポエム

前説

定義や、定義を変形して得られる式を区別なく出せるのは、文脈を共有できていることが前提にあるから。*1

ということで、ある勉強会の資料中に「defineされてない作用素があるから、この補足があったら私はサイコーに嬉しいのに！」と思った内容(と質疑)があったのでここに書く。

目的は、 $E[X,A]$ の定義と条件付き期待値との関係を整理すること。

以下、1次元の確率変数Xについて書く。

$1_{A}$ は指示関数。 $\in A$ なら1で、そうでなければ0。 $1_{A}(x)$ とかで書いた方が親切っぽいけどめんどうなので省略。

1.期待値

まず、期待値は次であると定義する。

$\displaystyle E[ X ] := \int_{\Omega} X(\omega) dP(\omega)$

ただし、確率・統計の文脈で話をするときに、(測度論的)確率論をひっぱり出すとオーバースペックになることがある。*2

ということで、 $\displaystyle \mathbb{R}$ 上の話に直して、さらに密度関数p(x)が存在する前提で書き直すと、見慣れた形になる。

$\displaystyle E[ X ] := \int_{- \infty}^{\infty} xp(x)dx$

2.どこかの集合上の期待値

ここから集合が出てくるけど、何も書かなければ集合は全て病的でないものを考える。（数学的に扱いやすいもの、くらいの意味で）

適当な集合Aを考える。

わかりにくい場合は「Aは事象」と考えればOK。

ある集合Aの上で計算した期待値 $\displaystyle E[ X,A ]$ を、次のように定義する*3

(Aは、 $\mathbb{R}$ 上の区間だと考えよう。)

$\displaystyle E[ X,A ] := \int_{A} xp(x)dx = \int_{-\infty}^{\infty} x 1_{A} p(x) dx =E[X 1_{A} ]$

ここで、 $\displaystyle E[ X,A ]$ そのものは条件付き期待値ではない。*4

では、いくつかの集合 $A_{i}$ で $\displaystyle (-\infty,\infty)$ を分割するような状況を考えてみよう。

分割というのは、 $A_{i}$ どうしは排反かつ、 $\displaystyle \bigcup_{i} A_{i}=(-\infty ,\infty)$ となる意味*5。例えば正と負に分けるとかをイメージすればOK。
このとき、和集合を $\displaystyle \bigcup_{i} A_{i}$ の代わりに $\displaystyle \sum_{i} A_{i}$ と書くことがある。ただし書籍によってまちまちだから、確認が必要

この状況下で $\sum _{i} E[ X, A_{i} ]$ を確かめよう。

$\displaystyle \sum _{i} E[ X, A_{i} ] = \sum _{i} \int_{A_{i}} xp(x)dx = \int_{\sum_{i} A_{i}} xp(x)dx = \int_{-\infty}^{\infty} xp(x)dx=E[X]$

最初の等号は $E[X,A]$ の定義から
二番目の等号は高校で習う積分の性質
三番目の等号は $A_{i}$ が $(-\infty,\infty)$ の分割であること
最後の等号は期待値の定義から

というわけで、 $\sum _{i} E[ X, A_{i} ]$ と $E[ X ]$ の関係が整理できた。

3.条件付き期待値とある集合上における期待値

ある集合Aで限定して計算した期待値を考えることがある。

言葉が怪しくなったけど、ある集合A上で確率分布を考え直して、A上で期待値を計算する、という意味。先の内容とは確率分布を考え直している点が異なることに注意が必要。

これを条件付き期待値といい、次で定義する。

$\displaystyle E[X|A] :=\int_{-\infty}^{\infty} x\frac{p(x)1_{A}}{P(A)}dx$

で、条件付き期待値を式変形すると、2.の $E[X,A]$ との関係が次のようになることがわかる。

$\displaystyle \int_{-\infty}^{\infty} x\frac{p(x)1_{A}}{P(A)}dx =\frac{1}{P(A)} \int_{-\infty}^{\infty}xp(x)1_{A}dx =\frac{E[X,A]}{P(A)}$

ここの、 $\displaystyle \frac{p(x)1_{A}}{P(A)}$ が、 $x \in A$ 上の確率分布になっていて、これを条件付き分布と呼ぶ*6。（例えば、A上で積分すると1になっていることがわかるよね。）

両者の関係性

$\displaystyle E[ X, A ] =E[ X| A ]P(A)$ であることが分かったので、次の変形が成立することがわかった。

$\displaystyle E[X] = \sum _{i} E[ X, A_{i} ] = \sum _{i} E[ X| A_{i} ]P(A_{i})$

うん、すっきり。

ちなみに1変数で考えたけど、2変数以上で、集合Aの代わりにある変数を周辺化する形でも上記は考えられる。

$\displaystyle E[ X,A ]$ の記法って、馴染みないよね。

*1:個人のブログ記事ならしらん顔できるのでメモ帳としては便利

*2:だから伊藤とか舟木とかを引用しようとして数学的な理解度の前提が違うから大変なことになる場合がある

*3:この記法は、『確率論』(舟木)のp.53で見つけた。他の測度論的確率論の本を数冊パラパラめくった感じ、多分みつからなかった

*4:ただし、条件付き期待値とは関係がある量

*5:これは正確な表現ではなく、全体である集合 $(-\infty,\infty)$ と $A_{i}$ の族 $\mathscr{A}$ を明示して、「 $\mathscr{A}$ は $(-\infty,\infty)$ の分割」と表現する方が正しいはず

*6:数学的に厳密ではないけど

2020-04-24

あやしいあいしいしい

ポエム

クラスターRCTとかマルチレベルモデル、他にdesign effectとか測定の一致がどうとかで、グループ内での変量効果的な物を考えることがある。

この、ある種の変量効果の比を、グループ内相関だとかクラスター内相関とか、級内相関だとかICCだとかの名前で呼び、相関係数の一種として考えているみたい。

ところで、いわゆる一般的なピアソンの積率相関係数は[-1,1]であり、（標本相関係数の定義とCauchy–Schwarzの不等式により）その推定値も[-1,1]からはみ出さない性質がある。

ということは、級内相関も当然[-1,1]くらいに理論値も推定値も収まってるはず、くらいの先入観を持ってもおかしくない。*1

本記事では、この先入観について、簡単な例を考えてみよう、というもの。別にその辺の解説記事を否定するものではないから、自分の宗教に合わなければ信じなければよい。

今回対象とするiccについて

一元配置変量モデルにおけるICC(1,k)を考える。最も簡単なタイプで、繰り返し測定のモデル的なやつ。

つまり、観測値 $\displaystyle Y_{i,j}$ が次のモデルに従って生成されると考える。

$\displaystyle Y_{i,j}= \mu + T_{i}+ W_{i,j}$

ここで、 $\displaystyle i =(1,2,\cdots , n),j = (1,2,\cdots ,k)$ 、 $\displaystyle T_{i}\sim N(0, \sigma^2_{T})$ 、 $\displaystyle W_{i,j}\sim N(0, \sigma^2_{W})$ とする。モデル通りの設定なので特に変なことはしていない。

で、ICC(1,k)の定義は以下

$\displaystyle ICC(1,k):= \frac{ \sigma^2_{T} }{ \sigma^2_{T} + \frac{ \sigma^2_{W}}{k} }$

ここから、ICC(1,k)の定義から、次の性質を持つことがわかる。

分散に関わる量の比なので、必ず0以上
最大は1になる

なので、-1から1の値をとる、みたいな解説はこの時点で間違いであると考えてもよい。

相関係数なのに[0,1]なのかよ、と思わないでもないけど、回帰分析の重相関係数は[0,1]なのでまだ許せる。

iccの推定方法

定義の性質は分かった、では推定値の性質はどうか。

例えばRでは、irrパッケージやpsychパッケージでiccを計算できる。

iccが考えているのは変量効果であるため、本来ならば分散成分の推定が必要となる。分散成分は次の方法で推定される。

昔ながらの分散分析モデルで推定する
混合モデルをいわゆるMLEとかで頑張って推定する

前者はいわゆるrepeated measurement anovaな感じの計算であり、irrパッケージはこれしか対応しない。後者は少し新しい方法で、計算コストは少し高いがそれなりに良い推定ができる。現在のpsychパッケージはデフォルトでこちらの方法で計算する。

古典的な方法で計算する推定値の挙動

ここからが本題。「昔ながらの分散分析モデルで推定したicc(1,k)はどのような分布となるか」を考えてみよう、コードは以下

library(psych)
nrow<-10
ncol<-4

T_sd<-1
W_sd<-2

run <- 100
estimated_icc <- rep(0,run)
for (i in 1:run){
  #T_i+W_ijの行列を作成
  idat<-diag(rnorm(nrow,sd=T_sd)) %*% matrix(1,nrow=nrow,ncol=ncol) + matrix(rnorm(nrow*ncol,sd=W_sd),nrow=nrow,ncol=ncol)
  #平均のICC(1,k)を計算
  estimated_icc[i]<-ICC(idat,lmer=FALSE)$results$ICC[4]
}
hist(estimated_icc)

このコードは、10人を4回測定するモデルで、分散の設定値から $\displaystyle icc(1,k)=\frac{1}{1+1}=0.5$ となる。実行するとこのモデルの元での100回分のiccの推定値のヒストグラムを出力する。

乱数なので実行するたび結果が変わる、そのうちの一回がこれ。

f:id:ben_key:20200424013750p:plain — iccの暴れ具合

ここから、次のことがわかる。

古典的な方法で計算するicc(1,k)は、今回の設定では負の値をとるどころか-1よりも小さい値をとる

結果から考えられること

「級内相関係数は分散の比であるため、[0,1]である」というのが定義よりわかる一方、「古典的な計算方法で求めた級内相関係数は、測定人数が少ない場合、相関係数のイメージと異なり、-2や-3などの推定値が平気で返ってくる。」というのが数値実験よりわかる。

これらから、級内相関の理論上の値域と、推定値の値域の解離が激しくなる場合が存在し、相関という言葉からナイーブに解釈したら事故る、と言えそう。

定義から素朴に考えると、iccがとんでもない値をとらず事故りにくくなる状況は以下になる。

古典的な計算方法よりもmixedモデルなどで計算する
測定人数が多い
測定回数が多い
ICC(n,1)とICC(n,k)では、前者の方に興味がある

1は言わずもがな。ただし無条件で良い結果が出るわけではなく、古典的な計算方法がよくない結果を返す時には推定に失敗することが多くなる。（lmer=TRUEで試すとよくわかる。）これは、そもそもデータの条件が良くないことを自覚するべき。

2はサンプルサイズが多ければ安定するだけと言う話。

3は少し曲者で、測定回数(=k)が多いと、そもそもicc(1,k)の意味が変わってくる。これは定義式から明らかなのだけど、kを大きくしてしまうとicc(1,k)は1に漸近する。数値的には事故りにくいけど、それは分析の目的とそぐわないのでは、的な。

4は、そもそも定義も求めてるものも違うんだから当たり前。ただし数値的な意味では確かに安定していて、検証の範囲でiccの絶対値が1を超えることはなかった。

結論

級内相関係数は理論上、その値域は[0,1]
ただし推定方法によっては相関係数のイメージとは全く異なる値が出る
級内相関係数は悪いわけではなく、推定量の抱える問題

分散成分の推定値が負になるくらいの不適解に相当する状況だと思うけど、無批判に受け取るには結構すごい値だよね、というところ。

*1:なんとも言えない感じの解説をいんたーねっと上で見かけた

2020-04-08

作用素と収束

担当分

問題

$A_{n}$ を有界な線形作用素の列とする。（ $A_{n} \in \mathscr{B}(X,Y)$ ）

$A_{n}$ が $A$ に一様収束するための必要十分条件が、Xの単位球面上の $f$ （つまり $||f||=1$ ）に対して $A_{n}f$ が $Af$ に一様収束することであることを示したい

必要性

有界作用素なので、 $||Af-A_{n}f|| \leq ||A-A_{n}||||f|| \leq ||A-A_{n}||$ となる。

なので $||Af-A_{n}f||$ が収束すれば $||A-A_{n}||$ が収束する。

十分性

$||A-A_{n}|| = \sup_{||f||=1} ||A-A_{n}||$ なので、右辺が $< 0$ なら左辺も $< 0$ 。

2020-04-06

よくわからんモデルの比較

ポエム

注意

正しさに一切の保証がない。

勉強中で、間違ったこと書いてある可能性が高い。

メモ

モデルとその推定方法（計算のための方針）を区別しよう

周辺な構造のモデル

counter factualなoutcomeの周辺期待値をモデルにしたもの。 $E(Y^{a}|V)$ みたいな感じで記述するイメージ。 Yではなく反事実な量 $Y^{a}$ についてのモデルであることに注意が必要

周辺な構造のモデルの推定はどうやってするの

IPWとかを使って、V以外では unconfoundedな集団を観測データから作る。（pseudo population と呼ぶようだ。）その集団から推定を行う。なので、割り当てに関するweightingが必要っぽい

構造がネストするモデル

周辺なやつは、実は $E(Y^{a=0})$ についての情報をモデルに含んでいる

ので、これを $E(Y^{a}-Y^{a=0}|V)$ としてしまうことで、a=0の値をunspecifiedにすることができる。

モデルの仮定を減らすことができるので嬉しい。

nest感はtime varyingについて考えるまでは漂わない。 (というか、time varyingでない場合にはsemiparametric marginal strucrural modelとstructural nested mean modelは同じものになるらしい　(fine point 14.2))

構造がネストするモデルの推定はどうやってするの

g-estimation　らしい

g-estimation　は何をやっている？

これは14章とそのプログラム例を元にしたメモ書き

rank -preservation　な感じにcounterfactualが表せるとする。

$Y ^{a} _{i} - Y ^{a=0} _{i} = \beta a$

（これを導入している理由は「わかりやすいから」らしい。なので、14.4がこれの説明に割かれている。）

consistencyのもとで、実測値に書き換えられる。左辺第二項について整理したり、counter factualを観測値に変えたりすると

$Y^{a=0}_{i} =Y_{i} - \beta A$

ということで、 $\beta$ をどうにかして当てたい。

上式の推定量的なものを本文ではHとおいてある。（うまくいけばHは $Y^{a=0}_{i}$ を当てることができるね）

過去記事潜在反応を交換する練習 - べんきのにっきから

conditional exchangeabilityの条件下において、割り当てと観測には次が成立する(aとAが使い分けられてない気がするけど、まぁいいや。)

$\tag{1} p(a|y^{1},y^{0},x)=p(a|x)$

邪魔な量があるので消しておくと

$\tag{2} p(a|y^{0},x)=p(a|x)$

で、左辺をプロビットでもロジットでもいいのでなんだかモデル化すると

$\tag{3} p(a|y^{0},x)=\alpha _{0}+\alpha _{1} (Y-\beta A) + \sum \beta _{i}x_{i}$

となる。

で、(2)が成立しているなら、(3)の $\alpha _{1}$ は0になるはずだ、と。

どうにかして、そうなるような $\beta$ を当てればよい。

方法の一つは総当たり。（ほんとに？と思ったけどサンプルはそうなっていた。えぇ・・・）

(0):割り当てのモデルを推定してIPを推定する

(1):重みをIPとして $\hat{\alpha} _{1}$ が0に近いモデルを探し当てる

(2):そのときの $\beta$ がATE

信頼区間も出せるよ、とのこと。でも多分ロバスト標準誤差とかそういうのが必要になるはず。

effect modification (Vとする)があるとかで、いっぱい推定しなきゃいけない場合は

$Y^{a=0}_{i} =Y_{i} - (\beta_{1} A + \beta_{2} A V )$

にして

$p(a|y^{0},x)=\alpha _{0}+\alpha _{1} (Y_{i} - (\beta_{1} A +\beta_{2} A V)) + \alpha _{2} (Y_{i} - (\beta_{1} A +\beta_{2} A V))V + \sum \beta _{i}x_{i}$

両方0になるところを探すということなのだろう（二つある場合のモデルに自信がない。あってるのかな、これ。）

周辺なほうとネストしてる方の違い

もしmodificationが存在している場合、周辺構造モデルで計算すると、 $\beta AL$ を入れ忘れていても（つまり、モデルを誤特定していても)ATEは計算できる。（Vをきちんとモデルに含めてあげると、Vごとの効果が推定できる。）一方、ネストの方でmodificationの項を入れ忘れてしまうと、結果はbiasedとなってしまうようだ。これは、ネストの方は $l \in L$ (confounder)ごとに計算していることが理由らしい。

2020-03-15

層で標準化した平均

ポエム

概要

周辺構造モデルで出てくる逆確率の最も簡単なパターンの計算練習

今回は特にcounter factualな話は出てこない。確率と期待値の機械的な計算に慣れる。

treatmentをA、共変量をLと読めばこれが何に通じるかがイメージできそう。 $I(\cdot)$ は指示関数。

基本的に $p(\cdot)$ は十分性質の良いものとする。(counter factual関係ないとは言ったけど、positivityが微妙に絡んでいる気はする。)

ゴール

多分次を導けること

$\displaystyle \tag{1.1} E \left( \frac{I_{A=a}Y}{p(A|L)} \right)=E _{L} \left\{ E_{Y|(A=a,L)} \left( Y| A=a,L \right) \right\}$

変形

積分についている ${S(\cdot)}$ はその台を示す。

(1.1)の左辺を積分に直す。

$\displaystyle \tag{1.2} E \left( \frac{I_{A=a}Y}{p(A|L)} \right)=\int _{L \in S(L)}dL \int _{A \in S(A)}dA \int _{Y \in S(Y)} \frac{I_{A=a}Y}{p(A|L)}p(Y,A,L) dY$

ここで、同時分布は次のように修正できることを思い出す。

$p(A|L)$ がipwとして扱われる量になっている。

$\displaystyle p(Y,A,L) = p(Y|A,L)p(A|L)p(L)$

すると、(1.2)の右辺は

$\displaystyle(1.2)=\int _{L \in S(L)}dL \int _{A \in S(A)}dA \int _{Y \in S(Y)} \frac{I_{A=a}Y}{p(A|L)}p(Y|A,L)p(A|L)p(L)dY$

で、p(A|L)が消えるから↓のようになって

$\displaystyle=\int _{L \in S(L)}dL \int _{A \in S(A)}dA \int _{Y \in S(Y)} I_{A=a}Yp(Y|A,L)p(L)dY$

p(L)とIはいったん考えないように追い出して

$\displaystyle=\int _{L \in S(L)}p(L)dL \int _{A \in S(A)} I_{A=a}dA \underbrace{\int _{Y \in S(Y)} Yp(Y|A,L)dY}_{E_{Y|(A,L)}(Y|A,L)}$

条件付き期待値 $E_{Y|(A,L)}(Y|A,L)$ が出てきた。

$E_{Y|(A,L)}$ の下付きの部分は、何の上で計算しているから自明じゃないから残しておく。

ということで、(1.2)はここまで計算できた

$\displaystyle \tag{1.3} E \left( \frac{I_{A=a}Y}{p(A|L)} \right)=\int _{L \in S(L)}p(L)dL \int _{A \in S(A)} I_{A=a}E_{Y|(A,L)}(Y|A,L)dA$

でAに関する積分だけど、 $\int_{A}f=\int_{S(A)}I_{A}f$ 的な計算を多分することになって、A=aの上でだけ残るから、次のように変形して良いはず。

$\displaystyle (1.3)=\int _{L \in S(L)} E_{Y|(A=a,L)}(Y|A=a,L)p(L)dL$

あとは普通に期待値として計算できるから

$\displaystyle =E_{L} \left\{ E_{Y|(A=a,L)}(Y|A=a,L) \right\}$

参考

Naimi, A. I., Cole, S. R., & Kennedy, E. H. (2017). An introduction to g methods. International journal of epidemiology, 46(2), 756–762. https://doi.org/10.1093/ije/dyw323 オンラインで読める

これのsupplementaryで周辺構造モデルのIPWを導いている。

第二部

で、結局何に使えるの？みたいなやつ
（ここからはまだうまく消化できていない）

supplementaryの　derivation of g-formulaの行間を埋める作業

time varyingなやつで、とりあえず2点のtreatmentがあるとする。exchangeabilityとかconsistencyは都合のいい感じに成立していると仮定する。

また、law of iterative expectationは勝手に用いる

ゴール

$E(Y^{a_{0},a_{1}})$ がなんかいい感じに変形できて、IPWの計算が役に立ちそうな雰囲気を出していることを確認する。

計算

まず、繰り返し期待値の性質から次のように変形できる

$\tag{2.1} E(Y^{a_{0},a_{1}})= E(\underbrace{E(Y^{a_{0},a_{1}}|A_{0})}_{\because =Y^{a_{0},a_{1}}})$

次に、繰り返し期待値の部分が交換可能であることを利用し、 $A_{0}$ に具体的な割り当てを考えてもよい

$\tag{2.2} (2.1)=E(E(Y^{a_{0},a_{1}}|A_{0}))=E(\underbrace{E(Y^{a_{0},a_{1}}|A_{0}=a_{0})}_{\because exchangeability})$

さらに、繰り返し期待値の性質から、Yをさらに条件付き期待値にする

$\tag{2.3} (2.2)=E(E(Y^{a_{0},a_{1}}|A_{0}=a_{0}))=E(E( \underbrace{E(Y^{a_{0},a_{1}}|A_{0}=a_{0},X,A_{1})}_{\because =Y^{a_{0},a_{1}}}|A_{0}=a_{0}))$

もう一度交換可能であることを利用し、 $A_{1}$ に具体的な割り当てを考えてもよい

$\tag{2.4} (2.3)=E(E( E(Y^{a_{0},a_{1}}|A_{0}=a_{0},X,A_{1})|A_{0}=a_{0})) \\ =E(E( \underbrace{E(Y^{a_{0},a_{1}}|A_{0}=a_{0},X,A_{1}=a_{1})}_{\because exchangeability}|A_{0}=a_{0}))$

$A_{0}=a_{0}$ と $A_{1}=a_{0}$ となっているので、 $Y^{a_{0},a_{1}}$ にconsistencyを考えることができる

$\tag{2.5} (2.4)=E(E(E(Y^{a_{0},a_{1}}|A_{0}=a_{0},X,A_{1}=a_{1})|A_{0}=a_{0})) \\ =E(E(\underbrace{E(Y|A_{0}=a_{0},X,A_{1}=a_{1})}_{\because consistency}|A_{0}=a_{0}))$

まとめると、次のように整理できたことになる。

$\tag{2.6} E(Y^{a_{0},a_{1}})=E(E(E(Y|A_{0}=a_{0},X,A_{1}=a_{1})|A_{0}=a_{0}))$

残念ながら、ここの条件付き期待値がなんの分布の上で計算しているのかきちんと整理できていないのだけど、 $E(E(Y|A_{0}=a_{0},X,A_{1}=a_{1})|A_{0}=a_{0})$ が第一部で計算した層で標準化した量に対応するはず。

というので、第一部で求めたのはなんだか色々役に立ちそうだ、と言うところらしい。

第三部

第一部で計算した量に対して、適当な条件が仮定できるときに潜在反応の期待値に変形できることを確認する。

ゴール

consistency

conditional exchangeability $p(Y^{a},A|L)=p(Y^{a}|L)p(A|L)$

positivity

のもとで次の関係になること

$\displaystyle \tag{3.1} E \left( \frac{I_{A=a}Y}{p(A|L)} \right)=E \left\{ Y^{a} \right\}$

計算

まず、consistencyが成立するなら(3-1)式左辺は、潜在反応に置き換えられる。

$\displaystyle E \left( \frac{I_{A=a}Y}{p(A|L)} \right)=E \left( \frac{I_{A=a}Y^{a}}{p(A|L)} \right)$

ついでに積分に戻す。

$\displaystyle =\int _{L \in S(L)}dL \int _{A \in S(A)}dA \int _{Y^{a} \in S(Y^{a})} \frac{I_{A=a}Y^{a}}{p(A|L)}p(Y,A,L)dY^{a}$

同時分布と条件付き分布の関係 $p(Y^{a},A,L)=p(Y^{a},A|L)p(L)$ を用いて次のように変形できる*1。

$\displaystyle =\int _{L \in S(L)}p(L)dL \int _{A \in S(A)}dA \int _{Y^{a} \in S(Y^{a})} \frac{I_{A=a}Y^{a}}{p(A|L)}p(Y^{a},A|L)dY^{a}$

続けて、conditional exchangeabilityから $p(Y^{a},A|L)=p(Y^{a}|L)p(A|L)$ と変形できて

$\displaystyle =\int _{L \in S(L)}p(L)dL \int _{A \in S(A)}dA \int _{Y^{a} \in S(Y^{a})} \frac{I_{A=a}Y^{a}}{p(A|L)}p(Y^{a}|L)p(A|L)dY^{a}$

$Y^{a}$ とAのそれぞれの積分に直すことができて

$\displaystyle =\int _{L \in S(L)}p(L)dL \underbrace{\int _{A \in S(A)} \frac{I_{A=a}}{p(A|L)} p(A|L) dA}_{=E (\frac{I_{A=a}}{p(a|L)} |L )} \underbrace{ \int _{Y^{a} \in S(Y^{a})} Y^{a} p(Y^{a}|L) dY^{a} }_{=E(Y^{a}|L)}$

で、難しそうな方の条件付き期待値が1になるから*2

$\displaystyle =\int _{L \in S(L)} \int _{Y^{a} \in S(Y^{a})} Y^{a} p(Y^{a}|L)p(L) dY^{a}dL$

あとは同時分布に直したら、これが $E[Y^{a}]$ になる。

$\displaystyle =\int _{L \in S(L)} \int _{Y^{a} \in S(Y^{a})} Y^{a} p(Y^{a},L) dY^{a}dL =E[Y^{a}]$

ということで(3.1)式が証明できた。

追記

スティルチェスでもなんでもない記法で展開しているから、 Aがdiscreteだったらそもそも記法的にアウトなのである。(そこだけΣで書き直せば解決するのだけど。)

で、 $A=a \in \mathbb{R}$ の状況下(一点)では $\int _{A \in S(A)} \frac{I_{A=a}}{p(A|L)} p(A|L) dA =0$ となる。

もしaが適当な長さをもつ区間であったなら、 $\int _{A \in a=(x,y)} \frac{I_{A=a}}{p(A|L)} p(A|L) dA=\int _{A \in a=(x,y)} I_{A=a} =y-x$ となり、1にならない。

となると、上記の式変形はAがdiscreteでないと成立しないのだろうか。困った。

*1:ついでにp(L)を左側に追いやっておく

*2:a={0,1}しかなく、しかも0か1かの1点なら確かに1なんだけど、 $A \subset \mathbb{R}$ で適当な部分集合をaにとると成立しない気がする

2020-03-14

潜在反応を交換する練習

ポエム

概要

よく忘れる内容の復習。どうしても覚えられない。

無視できそうな感じの独立性まで

条件付き分布が存在するかとかラドン=ニコディム微分がとかそう言うのではなく、ただ式変形の意味での復習

なお、causal inference bookとの整合的には次に注意

大文字と小文字は区別は面倒なので使い分けない（分けないと困る場合のみ使い分けようと思うがこの記事ではその必要はなかった）
割付はAであるがこの記事ではzを用いている

復習1：条件付き独立の定義

条件付き独立 $\displaystyle x \perp y |z$ はこう書けること

$\displaystyle p(x,y|z)=p(x|z)p(y|z)$

左辺を同時分布にして戻すとこうなる

$\displaystyle p(x,y,z)=p(x|z)p(y|z)p(z)$

復習2：交換可能性の定義

交換可能(exchangeable) $\displaystyle (y^{1},y^{0}) \perp z|x$ はこう書けること

$\tag{1} \displaystyle p(y^{1},y^{0},z|x)=p(y^{1},y^{0}|x)p(z|x)$

勝手に()で括られて一瞬「?」となるけど、xで条件づけると $\displaystyle (y^{1},y^{0})$ の同時分布とzが独立になっている、というのがポイント。

で、(1)の左辺を同時分布に戻すとこうなる。(p(x)を両辺にかけてある)

$\tag{2} \displaystyle p(y^{1},y^{0},z,x)=p(y^{1},y^{0}|x)p(z|x)p(x)$

復習3：交換可能性から期待値を計算する

同時分布については、 交換可能性には関係なく 、単純に次のように変形できる

$\tag{3} \displaystyle p(y^{1},y^{0},z,x)=\frac{p(y^{1},y^{0},z,x)}{p(y^{1},y^{0},x)}\frac{p(y^{1},y^{0},x)}{p(x)}p(x)=p(z|y^{1},y^{0},x)p(y^{1},y^{0}|x)p(x)$

(2)と(3)は同時分布 $p(y^{1},y^{0},z,x)$ を別の書き方で表したものに過ぎない。

つまり「(2)の右辺＝(3)の右辺」になる。でもよく見ると同じ項が多いので

$\require{cancel} \displaystyle p(z|y^{1},y^{0},x)\cancel{p(y^{1},y^{0}|x)}\cancel{p(x)}=\cancel{p(y^{1},y^{0}|x)}p(z|x)\cancel{p(x)}$

結局こうなる

$\tag{4} p(z|y^{1},y^{0},x)=p(z|x)$

でも、この左辺は次のように変形できる

$$ \begin{align} \displaystyle p(z|y^{1},y^{0},x) & =\frac{p(y^{1},y^{0},z,x)}{p(y^{1},y^{0},x)}\frac{p(z,x)}{p(z,x)}\frac{p(x)}{p(x)}\\ \displaystyle & =\frac{p(y^{1},y^{0},z,x)}{p(z,x)}\frac{p(x)}{p(y^{1},y^{0},x)}\frac{p(z,x)}{p(x)}\\ \displaystyle & =p(y^{1},y^{0}|z,x)\frac{1}{p(y^{1},y^{0}|x)}p(z|x) \end{align} $$

最初の＝は条件付き確率を戻したのと、1になるp()を追加している。次の＝は順番を入れ替えただけ、最後は条件付き確率に戻した。

これは(4)の左辺をただ変形したもので、p(z|x)に等しい。
結果として、次が成立する。

$\tag{5} p(y^{1},y^{0}|z,x)=p(y^{1},y^{0}|x)$

なので、たとえば $y^{0}$ を周辺化してから $y^{1}$ の期待値を計算すれば、次のようになる。

$E(y^{1}|z,x)=E(y^{1}|x)$

$y^{0}$ についても同様 $E(y^{0}|z,x)=E(y^{0}|x)$

これがmean的なexchangeable。

2020-03-08

A structual approach to selection bias

どくしょかんそうぶん

というのを読んだ。 2004年の論文らしい。

自分用のメモ

associationの指標がcausalな指標とならない場合の一つに「共通の結果でconditioningしてしまった、というのが挙げられる。例えば

case-controlで人選ミスってしまう
RCTでもなんかいろいろあってloss to follow upして（欠測データになる）しまう
（被験者をボランティアとかで募ってしまって）自己選択バイアス

で、まぁ選択バイアスみたいなのがあって、適当にconfounderで調整しようとしてもselectionに対策できていないと結局それはcausalな指標のestimatorとしてはbiasedだよねっていう。

どうやって調整するのかで、stratificationでダメな時があるから、IPWとかg-estimationとか使ったほうがいいよねー。

あと、このpaperのメインの話ではないけど、選択バイアスとか交絡とか言葉の意味が人によってまちまちだから、統一的に使えるようになった方がわかりやすくていいよね。

みたいなことが書いてあった。

感想

causal inference bookで読んだような話が書いてあった。（同じ著者なんだからそりゃそうだよね。）

なので、例の本の8章、14章を読み直すのが良さそうである。

あの本、time varyingのあたりから難しくてボコボコにされた。 22章のtarget trialについては読んですらいない。

きちんと読み直さないと。

前説