べんきのにっき

いろいろと垂れ流します。

よくわからないNegative Controls (前編)

内容

Negative Controls : A Tool for Detecting Confounding and Bias in Observational Studies を読んだけど、何だかよくわからなかったので書き残す。

原論文はこれ

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3053408/

出てくる用語

A:効果を推定したい暴露因子

Y:アウトカム

L:観察できる交絡因子

U:観察できない(調整できない)交絡因子

N:Negative Control Outcome

B:Negative Control Exposure

他にも因果推論系の用語は出てくるけど、hernan & Robins のCausal Inference Book読んだことある人にはわかると思うので割愛。

メモ 疫学分野で、交絡を特定するためのNegative Controlsの選び方

残差交絡を特定するためのNegative Controlsの選び方の一般的な原理を紹介しているらしい。

紹介されているのは二つで、Negative Control OutcomeとNegative Control Exposureらしい。

前提として、A→Yの効果を定量したくて、交絡因子LとUのうち、Lは測定できるけど、Uは測定できない。らしい。

前半:Negative Control Outcomeについて

以下、Negative Control Outcome*1をNCOと略す。正式な略称ではないので他で使うと恥をかく、注意。

NCOの定義

ある因子NがNCOであるとは、「AとYの共通原因の集合」=「AとNの共通原因の集合」であるときをいう。

ここでいう共通原因とは、測定できる交絡因子Lと、測定できない交絡因子Uの和集合 L \cup Uと思われる。

なお、=で結んであるけど、文章中では次のように"as identical as possible to~"となっているので、現実的な話としては≒であってもいいのだろう。

Ideally, a negative control outcome (N) should be an outcome such that the set of common causes of exposure A and outcome Y should be as identical as possible to the set of common causes of A and N.

理想的なNCOのDAGはこんな感じらしい。NがNCO

画像

図にはこんな説明が載っていた。

  • Nは、LとUからのCausal Pathがある。
  • さらに理想的には、AからNへのCausal Pathがない(後述)

NCOとU-comparable

NCOがさらに次の条件を満たす時、このNCOはYに対して"U-comparable"であるらしい。

  • AとYの未測定の共通原因集合と、AとNの未測定の共通原因集合が重なる(同じ)

NCOのご利益

「NとYがU-comparable」かつ、「A→NのCausal Pathがない」ときに、AとYの関係を分析したのと同じ方法でAとNの関係を分析した結果、AとNに何らかの関連が見出された場合、AとNの関連がAとYの関連のバイアスとなる。

機械翻訳よりも雑な訳である、ひどい。

多分こういうことなんだろう。

例えば、A→Yの関連*2を線形回帰で分析するとして、測定済みの交絡因子Lを使用し、Y=f(A,L)というモデルを想定し分析するとしよう。 このとき、A→N間の関連をN=f(A,L)として同じように分析する。 その結果、N=f(A,L)におけるAの偏回帰係数が0でない場合、Y=f(A,L)におけるAの関連性(偏回帰係数)はbiasedなものであると判断する。

なお、「NとYが完全にU-comparable」かつ「A→Nのパスがない」場合であれば、「A→Nの係数が0なら、NCOを通じたバイアスはなさそう」と判断できるらしい。

現実的な話と注意点

実際問題として、NCO完全にU-comparableであることはなくて、近似的にしか成立しない、とかいうのはあるらしい。

さらに余計な交絡因子の存在

なので例えば、A-N間の交絡因子ではあるが、A-Y間の交絡因子ではないU2が存在することもある。 そのため、予期せずA-N間の関連性がある(=AのNへの係数が非ゼロ)ことがわかったからといって、「A-Y間の関連性がbiasedだ!」と明確に断言はできないようだ。

(そういうU2の存在が示唆される訳だから、A-Nの関連があるからといって即断できないし、早合点もできない、ということだろう。絶対な訳じゃないからよく考えろよ、的なイメージなのかな?)

NがA-Yの未測定交絡因子の一部としか関連しない

NがA-Y間の未測定交絡因子の集合(=U)のうち、全てではなく部分的にしかPathを持たない場合、A-Y間に未測定の交絡があるにも関わらず「A-Nに関連なし」となる可能性がある。

この例にあるように、Negative Controlsには限界があるが、分析者に残差交絡を知らせてくれる点で価値はある。

NCOと測定済みの交絡因子Lの関係

原理的には、測定済みの交絡因子LがNの原因である必要はない。これは、A-Y間の交絡がLによってが適切に調整されたモデルなら、まぁ問題ないでしょう、となるかららしい。

ただ、実際のところ理想的には、NCOはYに向かうパスの親(=LとUのこと)からのパスは向いているものらしい。

これには二つの理由があって、一つ目は、測定済みの交絡因子Lの影響はないのに、未測定の交絡因子(=U)の影響は受けるようなNCOってどういうものか現実的に想像しにくいよねー、っていう話。

もう一つは、Lによる残差交絡やanalytic error*3を見つけるのに役立つわけだから、L→Nの関係とL→Yの関係ができるだけ一致している方が嬉しいよね。ということらしい。

後編の予告

Negative Controls Exposureは後編で。

ben-key.hatenablog.com

*1:日本語ではなんと呼ぶのが正しいのだろう

*2:元論文ではassociationとなっていて、effectやcausalといった意味をimplyしないようだ。

*3:この文脈だとどう訳すのが適切かよくわからない