べんきのにっき

いろいろと垂れ流します。

a=0でのリスク比とmodifier

概要

例の本の4.3、marginalなりすくとconditionalなりすくの関係性について。

それらしく書いてみたけど、中学生レベルの計算であり、中身はない。

設定

 l \in Lにおいて、conditionalなりすく比 \frac{P(Y^{a=1}=1|l)}{P(Y^{a=0}=1|l)}は分かっていて、

それでいて、marginalなりすく比 \frac{P(Y^{a=1}=1)}{P(Y^{a=0}=1)}が1未満になって欲しいような状況があるとする。

このとき、どういう状況を確かめればいいんだろうか、と読むことにする。

方針

面倒になったので普通に書く

まず、周辺でのrrを、特定のconditionalなrrで書き換える。

そのため、書き換えられるよう、都合のよい式変形をおこなう。

 \displaystyle \frac{P(Y^{a=1}=1)}{P(Y^{a=0}=1)} =\frac{1}{P(Y^{a=0}=1)}\sum_{l \in L} P(Y^{a=1}=1|l)P(l)

 \displaystyle = \frac{1}{P(Y^{a=0}=1)}\sum_{l \in L} P(Y^{a=1}=1|l)P(l) \frac{P(Y^{a=0}=1|l)}{P(Y^{a=0}=1|l)}

 \displaystyle \tag{1}  = \sum_{l \in L} \frac{P(Y^{a=1}=1|l)}{P(Y^{a=0}=1|l)} \left\{ \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}  \right\}

ここで、 \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}をw(l)とでもおけば、conditionalとmarginalの橋渡しができるweightと考えることができる。

weightをlで周辺化したら1になるのは明らか。

一方、 w(l)=  P(l|Y^{a=0}=1) と変形することもできる。

式変形その2

層lのconditionalなrisk ratioをr(l)とおく。(1)が<1となるような不等式を考える。

 \displaystyle (1)= \sum_{l \in L} r(l) \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}  \lt 1

左辺をてきとうに変形して、何かしら考察する。

分母はlに依存しないからどうにかできる。

 \displaystyle \sum_{l \in L} r(l) P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

右辺を0にするため、良い感じの項を作る。

 \displaystyle \sum_{l \in L} \{ 1-(1-r(l)) \} P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

 \displaystyle P(Y^{a=0}=1) -  \sum_{l \in L} (1-r(l)) P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

両辺から引いて消す

 \tag{2} \displaystyle \sum_{l \in L} (1-r(l)) P(Y^{a=0}=1|l)P(l) \gt 0

ここから、次の3者の関係で、(1)<1となる条件を考察できそうだ。

  • lの偏り
  • lでの(ベースラインというかuntreatedな)リスク
  • lでの1-リスク比

必要な値

とはいえ、これだとgivenな値が少なすぎて直感的でない。

いったん、 l=\{0,1\}として(2)式を具体的に考えてみる。

 \displaystyle  (1-r(0)) P(Y^{a=0}=1|0)P(0) + (1-r(1)) P(Y^{a=0}=1|1)P(1) \gt 0

適当に変形して

 \displaystyle  (1-r(0)) P(Y^{a=0}=1|0)P(0)  \gt  - (1-r(1)) P(Y^{a=0}=1|1)P(1)

もう少し適当に変形して

 \displaystyle  \left( -\frac{1-r(0)}{1-r(1)}  \right) \frac{P(0)}{P(1)}  \lt   \frac{P(Y^{a=0}=1|1)}{P(Y^{a=0}=1|0)}

ここから、層内のリスク比が1から正負のそれぞれの方向に離れているとき、marginalなリスク比が1未満となる状況を整理できそう。

左辺の1-r(l)に関連する比が、良い感じに崩れていることが要求されるっぽい。

個別具体の数値例は、上式に適当に値を突っ込めばOK

書籍のあれだと、r(0)=2でr(1)=0.5だから、

 \displaystyle  \frac{2P(0)}{P(1)}  \lt   \frac{P(Y^{a=0}=1|1)}{P(Y^{a=0}=1|0)}

となるから、P(0)とP(1)、つまりlの存在比と、それぞれで条件づけたリスクの比で決まる、と読めば良いのかな。

untreatedな状態で高リスクな層があるけど、存在割合は少ないから全体的にはそうでもない、とかそんな。

しかしこれだと、lがbinary以外の場合における考察にどれくらい有用なんだろう?

悲しみのメモ

sharp causal null hypothesisの話

sharp causal null hypothesisってなんなのという話。

A definition of causal effect for epidemiological research | Journal of Epidemiology & Community Health

これを見ると、例えば2値の割付A (=\{0,1\})において、populationのどのような個人にも効果がない状態を

 ^{\forall} \omega  \in  \Omega ,Y^{a=1}(\omega)-Y^{a=0}(\omega)=0

とし、sharp causal null hypothesisがtrueだと書いてあった。

好みで記法ちょっと変えていて、individualを \omega で、populationを \Omegaで書いた。こっちの方が X(\omega)みたいで確率変数っぽくみえるよね。

ちなみに、命題「sharp null .... が真→ATE=0」は正しい。

というのも、 ^{\forall} \omega  \in  \Omega ,Y^{a=1}(\omega)-Y^{a=0}(\omega)=0 なんだから、ATEも \sum _{\omega \in \Omega} Y^{a=1}(\omega)-Y^{a=0}(\omega)=0になるよね。

nondeterministic potential outcomeの話

以下では、TP1.2*1の計算の気持ちが掴めなかったので、雑に考えてみる。

それっぽい変形を考えてはみたけど、確率1で間違っている。

期待値の変形が何度かされていたんだけど、それぞれが一体なんの分布の上で積分してるのか全く直感的でなかったので、なんとかこれを補いたいのがモチベーション。

量子とかそういうのは興味がないので、以下、そう言った視点は全て捨てる。

non deterministicな状況をどう考えるか*2は余地がありそう。反応を規定する要素を完全に取り込み切れていない状態と考えられるならば、それっぽい感じがある。

もし、potential outcomeがdeterministicではなかったとし、A=aにおけるpotential outcomeの分布がパラメータtに依存し、tはなんらかの分布を持つとする。

潜在反応のpdfを \theta _{Y^{a}_{i}}(y,t)と書く。さらにtの分布をp(t)とおく。

ここから、potential outcomeの平均的なpdfを f_{Y^{a}}(y)としたら、次のように計算できる?*3S(t)はオレオレ記法でtの台の意味。

 f_{Y^{a}}(y)=\displaystyle \int _{S(t)}\theta _{Y^{a}_{i}}(y,t)p(t)dt

このとき、the average potential outcome in the populaition E[Y^{a}]は、おそらくこういう量を計算しようとしているんじゃないかな?と思う。

 \displaystyle \int_{S(y)} y f_{Y^{a}}(y) dy = \int_{S(y)} y \int _{S(t)} \theta _{Y^{a}_{i}}(y,t) p(t)dt dy= \int_{S(t)}  \underbrace{\int _{S(y)}y \theta _{Y^{a}_{i}}(y,t) dy}_{=\int y d\Theta_{Y^{a}}(y)?}  p(t)dt

もしこれが正しいなら、朧げに何を計算しているかをなんとなくイメージできた気がする。

参考にしようと思ったけど、結局読まなかった。

Stochastic counterfactuals and stochastic sufficient causes

*1:stochastic potential outcomeの方が検索でひっかかりが良さそうな

*2:正当化するか

*3:簡単な例を計算したら一応確率分布っぽくなっていた

おしだせ、しゅうごうのぞく

内容

 \displaystyle \sigma 加法族を押し出した場合にも \displaystyle \sigma 加法族になることを考える練習

何年か前の自分の為に書いた。強烈にくどい書き方であるが、当時の私にはこれくらいでないと分からない。

押し出しの定義

集合X,Y

関数 \displaystyle f:X \rightarrow Y

集合族 \displaystyle \mathscr{A} \subset 2^{X} \displaystyle \mathscr{B} \subset 2^{Y}

を用いて、押し出しを次の通り定義する*1

押し出し :  \displaystyle f ( \mathscr{A}) := \left\{ B \subset Y : f^{-1} (B) \in \mathscr{A}  \right\}

ここから、ある集合Zについて Z \in \displaystyle f(\mathscr{A}) を示すには、その逆像が \displaystyle f^{-1}(Z) \in \mathscr{A} となることを示せばよいことがわかる。

押し出しで示したいこと

 \displaystyle \mathscr{A}  \displaystyle \sigma 加法族なら \displaystyle f ( \mathscr{A} )  \displaystyle \sigma 加法族

 \mathscr{A} \displaystyle \sigma 加法族であることは前提になっている

このあと表記上の理由から、 \displaystyle \mathscr{B}=f ( \mathscr{A})とおく。(文字数を減らしたいだけ)

1. 空集合を含む

示すべき内容

 \displaystyle \varphi _{Y}   \in  \mathscr{B}

方針

特になし。 \displaystyle f^{-1}(\varphi_{Y}) \in \mathscr{A} を示すだけ。

【証明】

空集合の逆像は空集合なので「 \displaystyle f^{-1}(\varphi_{Y})=\varphi_{X} 」である。

仮定より \displaystyle  \mathscr{A}  \displaystyle \sigma 加法族であるから、 \displaystyle \varphi_{X} \in  \mathscr{A}

まとめると、次の通り。

 \displaystyle f^{-1}(\varphi_{Y})=\varphi_{X}  \in \mathscr{A}

ということで、 \displaystyle f^{-1}(\varphi_{Y})  \in \mathscr{A} が証明できた。

2. 補集合で閉じる

示すべき内容

 B \in \mathscr{B} \Rightarrow \displaystyle f(Y \setminus B) \in \mathscr{B}

方針

 \displaystyle B \in \mathscr{B} のとき、 \displaystyle Y \setminus B \in \mathscr{B} であることを確認すればよい。

そのため、 \displaystyle \mathscr{B} の定義から、「 \displaystyle Y \setminus B \subset Y 」と「 \displaystyle f^{-1}(Y \setminus B) \in \mathscr{A} 」が成立することを示せばよい。ただし前者はまぁ自明っぽいよねということで後者だけ確認する。

【証明】

ある集合Bが \displaystyle B \in \mathscr{B}とする。 このとき押し出しの定義から \displaystyle f ^{-1}(B) \in \mathscr{A}である。

仮定より \displaystyle  \mathscr{A}  \displaystyle \sigma 加法族であるから、( \displaystyle  f^{-1}(B) \in \mathscr{A} なので、) \displaystyle X \setminus f^{-1}(B) \in  \mathscr{A} となる。

ここで、「 \displaystyle f ^{-1}(Y) =X」と「 \displaystyle f ^{-1}( S \setminus T) =f^{-1} (S)\setminus f^{-1}(T)」を考えると、次のようになる。

 \displaystyle f^{-1}(Y \setminus B)=f^{-1}(Y) \setminus f^{-1}(B)= X \setminus f ^{-1}(B) \in \mathscr{A}

ということで、 \displaystyle f^{-1}(Y \setminus B) \in \mathscr{A} が確認できたので証明できた。

3. 加算加法性を持つ

示すべき内容

 \displaystyle B _{n} \in \mathscr{B} \Rightarrow   \bigcup B _{n}   \in   \mathscr{B}

方針

 \displaystyle B _{n} \in \mathscr{B}のとき \displaystyle  \bigcup B _{n}   \in   \mathscr{B} であることを確認すればよい。

先と同様に、 \displaystyle \mathscr{B} の定義から、「 \displaystyle f^{-1}(\cup B _{n}) \in \mathscr{A} 」が成立することを示せばよい。

【証明】

可算個の集合 B_{n} \displaystyle B_{n} \in \mathscr{B}とする。 このとき押し出しの定義から \displaystyle f ^{-1}(B_{n}) \in \mathscr{A}である。

仮定より \displaystyle  \mathscr{A}  \displaystyle \sigma 加法族であるから、( \displaystyle  f^{-1}(B_{n}) \in \mathscr{A} なので、) \displaystyle \bigcup f^{-1}(B) \in  \mathscr{A} となる。

ここで、「 \displaystyle f^{-1} (\cup B_{n})= \bigcup f ^{-1}(B_{n})」を考えると、次のようになる。

 \displaystyle f^{-1}(\cup B _{n}) \in \mathscr{A} = \bigcup f ^{-1}(B_{n}) \in \mathscr{A}

ということで、 \displaystyle f^{-1}(\cup B _{n}) \in \mathscr{A}が確認できたので証明できた。

補足:証明のために必要な内容

式変形でしれっと使用した関係がいくつかあるので、書いておく。

関係1 :  \displaystyle f^{-1}(\varphi)=\varphi

これ約束か定義だと思う。

関係2 :  \displaystyle f^{-1}(Y)=X

これは逆像の定義をよく考えたら全射単射に関係なく成立する。

関係3 :  \displaystyle f ^{-1}( S \setminus T) =f^{-1} (S)\setminus f^{-1}(T)

 \displaystyle f ^{-1}( S \setminus T) = \{x \in X; f(x) \in S \setminus T \}

 \displaystyle = \{x \in X; f(x) \in S  \} \setminus \{x \in X; f(x) \in T \}

 \displaystyle =f^{-1} (S)\setminus f^{-1}(T)

関係4 :  \displaystyle f^{-1} (\cup A_{n})= \bigcup f ^{-1}(A_{n})

 \displaystyle f^{-1} (\cup A_{n})= \{ x \in X ; f(x) \in \cup A_{n} \}

 \displaystyle = \{ x \in X ; f(x) \in A_{1} \} \cup \{ x \in X ; f(x) \in A_{2} \} \cup \cdots

 \displaystyle = \bigcup \{ x \in X ; f(x) \in A_{n} \} = \bigcup f ^{-1}(A_{n})

*1:押し出しも引き戻しも、どちらも逆像で定義している

きたいちのメモ

前説

定義や、定義を変形して得られる式を区別なく出せるのは、文脈を共有できていることが前提にあるから。*1

ということで、ある勉強会の資料中に「defineされてない作用素があるから、この補足があったら私はサイコーに嬉しいのに!」と思った内容(と質疑)があったのでここに書く。

目的は、 E[X,A]の定義と条件付き期待値との関係を整理すること。

以下、1次元の確率変数Xについて書く。

 1_{A}は指示関数。  \in A なら1で、そうでなければ0。  1_{A}(x)とかで書いた方が親切っぽいけどめんどうなので省略。

1.期待値

まず、期待値は次であると定義する。

 \displaystyle E[ X ] :=  \int_{\Omega} X(\omega) dP(\omega)

ただし、確率・統計の文脈で話をするときに、(測度論的)確率論をひっぱり出すとオーバースペックになることがある。*2

ということで、 \displaystyle \mathbb{R}上の話に直して、さらに密度関数p(x)が存在する前提で書き直すと、見慣れた形になる。

 \displaystyle E[ X ] :=  \int_{- \infty}^{\infty} xp(x)dx

2.どこかの集合上の期待値

ここから集合が出てくるけど、何も書かなければ集合は全て病的でないものを考える。(数学的に扱いやすいもの、くらいの意味で)

適当な集合Aを考える。

わかりにくい場合は「Aは事象」と考えればOK。

ある集合Aの上で計算した期待値 \displaystyle  E[ X,A ]を、次のように定義する*3

(Aは、 \mathbb{R}上の区間だと考えよう。)

 \displaystyle  E[ X,A ] :=  \int_{A} xp(x)dx = \int_{-\infty}^{\infty} x 1_{A} p(x) dx =E[X 1_{A} ]

ここで、 \displaystyle  E[ X,A ]そのものは条件付き期待値ではない。*4

では、いくつかの集合 A_{i} \displaystyle  (-\infty,\infty) を分割するような状況を考えてみよう。

分割というのは、 A_{i}どうしは排反かつ、 \displaystyle  \bigcup_{i} A_{i}=(-\infty ,\infty) となる意味*5。例えば正と負に分けるとかをイメージすればOK。
このとき、和集合を \displaystyle \bigcup_{i} A_{i}の代わりに \displaystyle \sum_{i} A_{i}と書くことがある。ただし書籍によってまちまちだから、確認が必要

この状況下で \sum _{i} E[ X, A_{i} ]を確かめよう。

\displaystyle  \sum _{i} E[ X, A_{i} ] = \sum _{i} \int_{A_{i}} xp(x)dx = \int_{\sum_{i} A_{i}} xp(x)dx  = \int_{-\infty}^{\infty} xp(x)dx=E[X]

最初の等号は E[X,A]の定義から
二番目の等号は高校で習う積分の性質
三番目の等号は A_{i} (-\infty,\infty)の分割であること
最後の等号は期待値の定義から

というわけで、 \sum _{i} E[ X, A_{i} ]  E[ X ]の関係が整理できた。

3.条件付き期待値とある集合上における期待値

ある集合Aで限定して計算した期待値を考えることがある。

言葉が怪しくなったけど、ある集合A上で確率分布を考え直して、A上で期待値を計算する、という意味。先の内容とは確率分布を考え直している点が異なることに注意が必要。

これを条件付き期待値といい、次で定義する。

 \displaystyle  E[X|A] :=\int_{-\infty}^{\infty} x\frac{p(x)1_{A}}{P(A)}dx

で、条件付き期待値を式変形すると、2.の E[X,A]との関係が次のようになることがわかる。

 \displaystyle \int_{-\infty}^{\infty} x\frac{p(x)1_{A}}{P(A)}dx  =\frac{1}{P(A)} \int_{-\infty}^{\infty}xp(x)1_{A}dx =\frac{E[X,A]}{P(A)}

ここの、 \displaystyle  \frac{p(x)1_{A}}{P(A)} が、 x \in A上の確率分布になっていて、これを条件付き分布と呼ぶ*6。 (例えば、A上で積分すると1になっていることがわかるよね。)

両者の関係性

 \displaystyle E[ X, A ] =E[ X| A ]P(A) であることが分かったので、次の変形が成立することがわかった。

\displaystyle  E[X] = \sum _{i} E[ X, A_{i} ] =  \sum _{i} E[ X| A_{i} ]P(A_{i})

うん、すっきり。

ちなみに1変数で考えたけど、2変数以上で、集合Aの代わりにある変数を周辺化する形でも上記は考えられる。

 \displaystyle  E[ X,A ]の記法って、馴染みないよね。

*1:個人のブログ記事ならしらん顔できるのでメモ帳としては便利

*2:だから伊藤とか舟木とかを引用しようとして数学的な理解度の前提が違うから大変なことになる場合がある

*3:この記法は、『確率論』(舟木)のp.53で見つけた。他の測度論的確率論の本を数冊パラパラめくった感じ、多分みつからなかった

*4:ただし、条件付き期待値とは関係がある量

*5:これは正確な表現ではなく、全体である集合 (-\infty,\infty) A_{i}の族 \mathscr{A}を明示して、「 \mathscr{A} (-\infty,\infty)の分割」と表現する方が正しいはず

*6:数学的に厳密ではないけど

あやしいあいしいしい

クラスターRCTとかマルチレベルモデル、他にdesign effectとか測定の一致がどうとかで、グループ内での変量効果的な物を考えることがある。

この、ある種の変量効果の比を、グループ内相関だとかクラスター内相関とか、級内相関だとかICCだとかの名前で呼び、相関係数の一種として考えているみたい。

ところで、いわゆる一般的なピアソンの積率相関係数は[-1,1]であり、(標本相関係数の定義とCauchy–Schwarzの不等式により)その推定値も[-1,1]からはみ出さない性質がある。

ということは、級内相関も当然[-1,1]くらいに理論値も推定値も収まってるはず、くらいの先入観を持ってもおかしくない。*1

本記事では、この先入観について、簡単な例を考えてみよう、というもの。 別にその辺の解説記事を否定するものではないから、自分の宗教に合わなければ信じなければよい。

今回対象とするiccについて

一元配置変量モデルにおけるICC(1,k)を考える。 最も簡単なタイプで、繰り返し測定のモデル的なやつ。

つまり、観測値 \displaystyle Y_{i,j}が次のモデルに従って生成されると考える。

 \displaystyle Y_{i,j}= \mu + T_{i}+ W_{i,j}

ここで、 \displaystyle i =(1,2,\cdots , n),j = (1,2,\cdots ,k) \displaystyle T_{i}\sim N(0, \sigma^2_{T}) \displaystyle W_{i,j}\sim N(0, \sigma^2_{W})とする。モデル通りの設定なので特に変なことはしていない。

で、ICC(1,k)の定義は以下

 \displaystyle ICC(1,k):= \frac{ \sigma^2_{T} }{ \sigma^2_{T} + \frac{ \sigma^2_{W}}{k} }

ここから、ICC(1,k)の定義から、次の性質を持つことがわかる。

  • 分散に関わる量の比なので、必ず0以上
  • 最大は1になる

なので、-1から1の値をとる、みたいな解説はこの時点で間違いであると考えてもよい。

相関係数なのに[0,1]なのかよ、と思わないでもないけど、回帰分析の重相関係数は[0,1]なのでまだ許せる。

iccの推定方法

定義の性質は分かった、では推定値の性質はどうか。

例えばRでは、irrパッケージやpsychパッケージでiccを計算できる。

iccが考えているのは変量効果であるため、本来ならば分散成分の推定が必要となる。 分散成分は次の方法で推定される。

  1. 昔ながらの分散分析モデルで推定する

  2. 混合モデルをいわゆるMLEとかで頑張って推定する

前者はいわゆるrepeated measurement anovaな感じの計算であり、irrパッケージはこれしか対応しない。 後者は少し新しい方法で、計算コストは少し高いがそれなりに良い推定ができる。 現在のpsychパッケージはデフォルトでこちらの方法で計算する。

古典的な方法で計算する推定値の挙動

ここからが本題。 「昔ながらの分散分析モデルで推定したicc(1,k)はどのような分布となるか」を考えてみよう、コードは以下

library(psych)
nrow<-10
ncol<-4

T_sd<-1
W_sd<-2

run <- 100
estimated_icc <- rep(0,run)
for (i in 1:run){
  #T_i+W_ijの行列を作成
  idat<-diag(rnorm(nrow,sd=T_sd)) %*% matrix(1,nrow=nrow,ncol=ncol) + matrix(rnorm(nrow*ncol,sd=W_sd),nrow=nrow,ncol=ncol)
  #平均のICC(1,k)を計算
  estimated_icc[i]<-ICC(idat,lmer=FALSE)$results$ICC[4]
}
hist(estimated_icc)

このコードは、10人を4回測定するモデルで、分散の設定値から \displaystyle icc(1,k)=\frac{1}{1+1}=0.5となる。 実行するとこのモデルの元での100回分のiccの推定値のヒストグラムを出力する。

乱数なので実行するたび結果が変わる、そのうちの一回がこれ。

f:id:ben_key:20200424013750p:plain
iccの暴れ具合

ここから、次のことがわかる。

  • 古典的な方法で計算するicc(1,k)は、今回の設定では負の値をとるどころか-1よりも小さい値をとる

結果から考えられること

「級内相関係数は分散の比であるため、[0,1]である」というのが定義よりわかる一方、 「古典的な計算方法で求めた級内相関係数は、測定人数が少ない場合、相関係数のイメージと異なり、-2や-3などの推定値が平気で返ってくる。」というのが数値実験よりわかる。

これらから、級内相関の理論上の値域と、推定値の値域の解離が激しくなる場合が存在し、相関という言葉からナイーブに解釈したら事故る、と言えそう。

定義から素朴に考えると、iccがとんでもない値をとらず事故りにくくなる状況は以下になる。

  1. 古典的な計算方法よりもmixedモデルなどで計算する
  2. 測定人数が多い
  3. 測定回数が多い
  4. ICC(n,1)とICC(n,k)では、前者の方に興味がある

1は言わずもがな。ただし無条件で良い結果が出るわけではなく、古典的な計算方法がよくない結果を返す時には推定に失敗することが多くなる。(lmer=TRUEで試すとよくわかる。)これは、そもそもデータの条件が良くないことを自覚するべき。

2はサンプルサイズが多ければ安定するだけと言う話。

3は少し曲者で、測定回数(=k)が多いと、そもそもicc(1,k)の意味が変わってくる。これは定義式から明らかなのだけど、kを大きくしてしまうとicc(1,k)は1に漸近する。数値的には事故りにくいけど、それは分析の目的とそぐわないのでは、的な。

4は、そもそも定義も求めてるものも違うんだから当たり前。ただし数値的な意味では確かに安定していて、検証の範囲でiccの絶対値が1を超えることはなかった。

結論

  • 級内相関係数は理論上、その値域は[0,1]
  • ただし推定方法によっては相関係数のイメージとは全く異なる値が出る
  • 級内相関係数は悪いわけではなく、推定量の抱える問題

分散成分の推定値が負になるくらいの不適解に相当する状況だと思うけど、無批判に受け取るには結構すごい値だよね、というところ。

*1:なんとも言えない感じの解説をいんたーねっと上で見かけた

作用素と収束

問題

 A_{n}有界な線形作用素の列とする。(A_{n} \in  \mathscr{B}(X,Y)

A_{n}Aに一様収束するための必要十分条件が、Xの単位球面上の f(つまり||f||=1)に対して A_{n}fAfに一様収束することであることを示したい

必要性

有界作用素なので、  ||Af-A_{n}f|| \leq ||A-A_{n}||||f|| \leq ||A-A_{n}|| となる。

なので ||Af-A_{n}f|| が収束すれば ||A-A_{n}|| が収束する。

十分性

 ||A-A_{n}|| = \sup_{||f||=1} ||A-A_{n}||なので、 右辺が &lt; 0なら左辺も &lt; 0

よくわからんモデルの比較

注意

正しさに一切の保証がない。

勉強中で、間違ったこと書いてある可能性が高い。

メモ

モデルとその推定方法(計算のための方針)を区別しよう

  • 周辺な構造のモデル

counter factualなoutcomeの周辺期待値をモデルにしたもの。  E(Y^{a}|V)みたいな感じで記述するイメージ。 Yではなく反事実な量 Y^{a}についてのモデルであることに注意が必要

  • 周辺な構造のモデルの推定はどうやってするの

IPWとかを使って、V以外では unconfoundedな集団を観測データから作る。 (pseudo population と呼ぶようだ。) その集団から推定を行う。 なので、割り当てに関するweightingが必要っぽい

  • 構造がネストするモデル

周辺なやつは、実は E(Y^{a=0}) についての情報をモデルに含んでいる

ので、これを E(Y^{a}-Y^{a=0}|V) としてしまうことで、a=0の値をunspecifiedにすることができる。

モデルの仮定を減らすことができるので嬉しい。

nest感はtime varyingについて考えるまでは漂わない。 (というか、time varyingでない場合にはsemiparametric marginal strucrural modelとstructural nested mean modelは同じものになるらしい (fine point 14.2))

  • 構造がネストするモデルの推定はどうやってするの

g-estimation らしい

g-estimation は何をやっている?

これは14章とそのプログラム例を元にしたメモ書き

rank -preservation な感じにcounterfactualが表せるとする。

 Y ^{a} _{i} - Y ^{a=0} _{i} = \beta a

(これを導入している理由は「わかりやすいから」らしい。なので、14.4がこれの説明に割かれている。)

consistencyのもとで、実測値に書き換えられる。 左辺第二項について整理したり、counter factualを観測値に変えたりすると

  Y^{a=0}_{i} =Y_{i} - \beta A

ということで、 \betaをどうにかして当てたい。

上式の推定量的なものを本文ではHとおいてある。(うまくいけばHは  Y^{a=0}_{i}を当てることができるね)

過去記事潜在反応を交換する練習 - べんきのにっきから

conditional exchangeabilityの条件下において、割り当てと観測には次が成立する(aとAが使い分けられてない気がするけど、まぁいいや。)

\tag{1} p(a|y^{1},y^{0},x)=p(a|x)

邪魔な量があるので消しておくと

\tag{2} p(a|y^{0},x)=p(a|x)

で、左辺をプロビットでもロジットでもいいのでなんだかモデル化すると

\tag{3} p(a|y^{0},x)=\alpha _{0}+\alpha _{1} (Y-\beta A) + \sum \beta _{i}x_{i}

となる。

で、(2)が成立しているなら、(3)の \alpha _{1}は0になるはずだ、と。

どうにかして、そうなるような \betaを当てればよい。

方法の一つは総当たり。(ほんとに?と思ったけどサンプルはそうなっていた。えぇ・・・)

(0):割り当てのモデルを推定してIPを推定する

(1):重みをIPとして \hat{\alpha} _{1}が0に近いモデルを探し当てる

(2):そのときの \betaがATE

信頼区間も出せるよ、とのこと。でも多分ロバスト標準誤差とかそういうのが必要になるはず。

effect modification (Vとする)があるとかで、いっぱい推定しなきゃいけない場合は

 Y^{a=0}_{i} =Y_{i} - (\beta_{1} A + \beta_{2} A V )

にして

 p(a|y^{0},x)=\alpha _{0}+\alpha _{1} (Y_{i} - (\beta_{1} A +\beta_{2} A V)) + \alpha _{2} (Y_{i} - (\beta_{1} A +\beta_{2} A V))V + \sum \beta _{i}x_{i}

両方0になるところを探すということなのだろう(二つある場合のモデルに自信がない。あってるのかな、これ。)

周辺なほうとネストしてる方の違い

もしmodificationが存在している場合、周辺構造モデルで計算すると、 \beta ALを入れ忘れていても(つまり、モデルを誤特定していても)ATEは計算できる。(Vをきちんとモデルに含めてあげると、Vごとの効果が推定できる。) 一方、ネストの方でmodificationの項を入れ忘れてしまうと、結果はbiasedとなってしまうようだ。 これは、ネストの方は l \in L (confounder)ごとに計算していることが理由らしい。