よくわからないNegative Controls (前編)
内容
Negative Controls : A Tool for Detecting Confounding and Bias in Observational Studies を読んだけど、何だかよくわからなかったので書き残す。
原論文はこれ
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3053408/
出てくる用語
A:効果を推定したい暴露因子
Y:アウトカム
L:観察できる交絡因子
U:観察できない(調整できない)交絡因子
N:Negative Control Outcome
B:Negative Control Exposure
他にも因果推論系の用語は出てくるけど、hernan & Robins のCausal Inference Book読んだことある人にはわかると思うので割愛。
メモ 疫学分野で、交絡を特定するためのNegative Controlsの選び方
残差交絡を特定するためのNegative Controlsの選び方の一般的な原理を紹介しているらしい。
紹介されているのは二つで、Negative Control OutcomeとNegative Control Exposureらしい。
前提として、A→Yの効果を定量したくて、交絡因子LとUのうち、Lは測定できるけど、Uは測定できない。らしい。
前半:Negative Control Outcomeについて
以下、Negative Control Outcome*1をNCOと略す。正式な略称ではないので他で使うと恥をかく、注意。
NCOの定義
ある因子NがNCOであるとは、「AとYの共通原因の集合」=「AとNの共通原因の集合」であるときをいう。
ここでいう共通原因とは、測定できる交絡因子Lと、測定できない交絡因子Uの和集合と思われる。
なお、=で結んであるけど、文章中では次のように"as identical as possible to~"となっているので、現実的な話としては≒であってもいいのだろう。
Ideally, a negative control outcome (N) should be an outcome such that the set of common causes of exposure A and outcome Y should be as identical as possible to the set of common causes of A and N.
理想的なNCOのDAGはこんな感じらしい。NがNCO
図にはこんな説明が載っていた。
- Nは、LとUからのCausal Pathがある。
- さらに理想的には、AからNへのCausal Pathがない(後述)
NCOとU-comparable
NCOがさらに次の条件を満たす時、このNCOはYに対して"U-comparable"であるらしい。
- AとYの未測定の共通原因集合と、AとNの未測定の共通原因集合が重なる(同じ)
NCOのご利益
「NとYがU-comparable」かつ、「A→NのCausal Pathがない」ときに、AとYの関係を分析したのと同じ方法でAとNの関係を分析した結果、AとNに何らかの関連が見出された場合、AとNの関連がAとYの関連のバイアスとなる。
機械翻訳よりも雑な訳である、ひどい。
多分こういうことなんだろう。
例えば、A→Yの関連*2を線形回帰で分析するとして、測定済みの交絡因子Lを使用し、Y=f(A,L)というモデルを想定し分析するとしよう。 このとき、A→N間の関連をN=f(A,L)として同じように分析する。 その結果、N=f(A,L)におけるAの偏回帰係数が0でない場合、Y=f(A,L)におけるAの関連性(偏回帰係数)はbiasedなものであると判断する。
なお、「NとYが完全にU-comparable」かつ「A→Nのパスがない」場合であれば、「A→Nの係数が0なら、NCOを通じたバイアスはなさそう」と判断できるらしい。
現実的な話と注意点
実際問題として、NCO完全にU-comparableであることはなくて、近似的にしか成立しない、とかいうのはあるらしい。
さらに余計な交絡因子の存在
なので例えば、A-N間の交絡因子ではあるが、A-Y間の交絡因子ではないU2が存在することもある。 そのため、予期せずA-N間の関連性がある(=AのNへの係数が非ゼロ)ことがわかったからといって、「A-Y間の関連性がbiasedだ!」と明確に断言はできないようだ。
(そういうU2の存在が示唆される訳だから、A-Nの関連があるからといって即断できないし、早合点もできない、ということだろう。絶対な訳じゃないからよく考えろよ、的なイメージなのかな?)
NがA-Yの未測定交絡因子の一部としか関連しない
NがA-Y間の未測定交絡因子の集合(=U)のうち、全てではなく部分的にしかPathを持たない場合、A-Y間に未測定の交絡があるにも関わらず「A-Nに関連なし」となる可能性がある。
この例にあるように、Negative Controlsには限界があるが、分析者に残差交絡を知らせてくれる点で価値はある。
NCOと測定済みの交絡因子Lの関係
原理的には、測定済みの交絡因子LがNの原因である必要はない。これは、A-Y間の交絡がLによってが適切に調整されたモデルなら、まぁ問題ないでしょう、となるかららしい。
ただ、実際のところ理想的には、NCOはYに向かうパスの親(=LとUのこと)からのパスは向いているものらしい。
これには二つの理由があって、一つ目は、測定済みの交絡因子Lの影響はないのに、未測定の交絡因子(=U)の影響は受けるようなNCOってどういうものか現実的に想像しにくいよねー、っていう話。
もう一つは、Lによる残差交絡やanalytic error*3を見つけるのに役立つわけだから、L→Nの関係とL→Yの関係ができるだけ一致している方が嬉しいよね。ということらしい。
後編の予告
Negative Controls Exposureは後編で。