べんきのにっき

いろいろと垂れ流します。

よくわからないNegative Controls (後編)

内容

Negative Controls : A Tool for Detecting Confounding and Bias in Observational Studies を読んだけど、何だかよくわからなかったので書き残した。

後編ではNegative Controls Exposureについて。

原論文はこれ

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3053408/

前編はこちら

ben-key.hatenablog.com

出てくる用語

A:効果を推定したい暴露因子

Y:アウトカム

L:観察できる交絡因子

U:観察できない(調整できない)交絡因子

B:Negative Control Exposure

事前知識はhernan & robins読んでください。『構造的因果モデルの基礎』(黒木, 2017)でもいいです。

後半:Negative Control Exposureについて

以下、Negative Control ExposureをNCEと略す。NCOと同様、正式な略称ではないので他で使うと恥をかく、注意。

NCEの定義

ある因子NがNCEであるとは、「AとYの共通原因の集合」=「BとYの共通原因の集合」であるときをいう。

共通原因はNCOの時と同様に、測定できる交絡因子Lと、測定できない交絡因子Uの和集合 L \cup Uと思われる。

さらに同様に、文章中では次のように"as identical as possible to~"となっているので、現実的な話としては≒であってもいいのだろう。

A negative control exposure B should be an exposure such that the common causes of A and Y are as nearly identical as possible to the common causes of B and Y.

理想的なNCEのDAGはこんな感じらしい。BがNCE

画像

図にはこんな説明が載っていた。

  • Bは、LとUからのCausal Pathがある。(Aに向かう矢印と同じものがBにも向かっている)
  • さらに理想的には、BからYへのCausal Pathがない(後述)
  • (なお、Zは操作変数で、NCEとの違いを表すために図示されていると思われる。)

NCEとU-comparable

NCEがさらに次の条件を満たす時、このNCEはAに対して"U-comparable"であるらしい。

  • BとAの未測定の共通原因集合と、YとBの未測定の共通原因集合が重なる(同じ)

NCOのU-comparableとの違いは、NCOでは「NとY(=Negative Control とアウトカム)」についての関係であったのに対し、NCEでは「BとA(=Negative Control と暴露変数)」についての関係である、という点。 用語的に言えば、NCOとYは共にOutcomeであり、NCEとAは共にExposureである。その意味で、これらの対応関係というか命名には一定の規則性が見て取れる*1

NCEのご利益

「AとBがU-comparable」かつ、「B→YのCausal Pathがない」ときに、AとYの関係を分析したのと同じ方法でAとBの関係を分析した結果、AとBに何らかの関連が見出された場合、AとBの関連がAとYの関連のバイアスの指標となる。

前半と同じく雑すぎる訳であるが、同様に対応づけると多分次の意味だろう。

例えば、A→Yの関連を線形回帰で分析するとして、測定済みの交絡因子Lを使用し、Y=f(A,L)というモデルを想定し分析する。 同様に、A→B間の関連をB=f(A,L)として同じように分析する。 その結果、B=f(A,L)におけるAの偏回帰係数が0でない場合、Y=f(A,L)におけるAの関連性(偏回帰係数)はbiasedなものであると判断する。

なお、「AとBが完全にU-comparable」かつ「B→Yのパスがない」場合であれば、「A→Bの係数が0なら、NCEを通じたバイアスはなさそう」と判断できるらしい。

現実的な話と注意点

観察研究のような場合では、暴露変数AとNCEが完全にU-comparableであることはなくて、近似的にしか成立しない、とかいうのはあるらしい。このような時、次のような困ったことが起こることが考えられる。

余計な交絡変数の存在

例えばA-Yの交絡因子ではないけど、B-Yの交絡因子であるようなU2が存在すると、A-Yはunbiasedであるにも関わらず、B-Yには関連ができてしまう。

B-Yの交絡がちょっと違う

逆に、A-Yの交絡因子ではあるけど、B-Yの交絡因子ではないような未測定の交絡因子が存在すると、実際にはA-Yはbiasedなのに、B-Yは無関連となってしまうこともある。*2

使い所、つかいわけ

コホート研究では個人ごとに暴露もアウトカムも測定しているため、NCOとNCEが使えそう。

ケースコントロール研究では対象ごとに暴露を測定しているから、NCEが使えそう。

コホート内ケースコントロール研究*3なら、不適切なアウトカムが選ばれてしまうかもしれない。

stand-alone case-control*4 なら、色々と問題があってアウトカムを選べないかもしれない? よくわからないが、case controlにはnegative controls outcomeが適用しにくい、ということなのだろう。

Negative Controlsと操作変数との違い

なんか操作変数と似てない?と思うかもしれないけど、違いはあるので整理しておきましょう。

(上の図にZが示してあるので、それを見てからだとよくわかる)

操作変数Zは、「Z-Aの因果的なパスがあり」、かつ「A-Yの交絡因子とはPathがない」もの。

対照的に、Negative Controlsは次の点が異なる。

Negative Controls Outcomeは、「考えられる交絡道全てを通じてAと繋がっていて」、かつ「その繋がりはCausalなPathではない*5」もの。

Negatove Controls Exposureは、「考えられる交絡道全てを通じてYと繋がっていて」、かつ「その繋がりはCausalなPathではない*6」もの。

たしかに、割と条件は異なっているようだ。

*1:水が沸騰する温度が100度であるのと同様に、「そういう対応となるように名付けた」のかもしれない

*2:原文は「A-Yの交絡因子がB-Yに交絡道を持たないとき」みたいに書いてあるんだけど、直前の表現のことも考えると「A-Yの交絡因子ではあるけど、B-Yの交絡因子ではない」と読み替えると表現的にわかりやすいと思った

*3:case-control study is nested within a cohort

*4:研究デザイン詳しくないから、どう訳していいのかわからない

*5: A \to N N \to AのPathがない

*6: B \to Y Y \to BのPathがない