べんきのにっき

いろいろと垂れ流します。

よくわからないswig

swigの日本語の記事全然見つからなくて辛い。

本題と関係ない話

ところで、DAG(有向非巡回グラフ)はグラフの一種に過ぎず、因果推論の専売特許ではない。

一方、Causal Structureを表現する手段として有用である側面を持つため、 causal DAGとかで呼んだ方が誤解が減るのではないかと思う。

以上、DAGという言葉で因果推論マウントを取るのは筋違いな気がする話。

(あまり細かく言うと言葉狩りになるから、程度問題だとは思うけど。)

参考と図の出典

Single World Intervention Graphs: A Primer

Single World Intervention Graphs (SWIGs):Unifying the Counterfactual and Graphical Approaches to Causality

図は上記から引用。

本題

例の本を読んでいると出てくるSWIG

single interventionにおけるcounter factualを表現するものらしい

最も簡単な例で言うと、次のようなグラフがあったとする。

いつも通り \displaystyle A =\{ 0,1 \}としておく。

 \displaystyle A \rightarrow Y

swigはDAGのノードを分割したりcounter factualなものに入れ替えて作成される。

 \tag{1} \displaystyle A|a \rightarrow Y^{a}

このとき、もしなんかa=0とするような介入を想定すれば、こういう世界線を表す。

 \displaystyle A|a=0 \rightarrow Y^{a=0}

一方、a=1とする介入も当然あり、同様にこう表す。

 \displaystyle A|a=1 \rightarrow Y^{a=1}

両方まとめて、(1)のように書けばいいね。というもののようだ。

swigにする方法

ステップは多分二つ。

ステップ1: interventionの対象となる全てのノードをrandom nodeとfixed nodeにsplitする

random nodeとfixed nodeは次の通りで、パスを受け取る側のノードとパスを出す側のノードに分割している。

ノード 表記 ノードへパスが ノードからパスが
random node 大文字 向かっている 出ていない
fixed node 小文字 向かっていない 出ている

大文字小文字は厳密なルールではないので、あんまり気にしなくて良いと思う。受け取る側と出る側に役割が分かれていることが大事。

例えばノードAをsplitするとこうなる。

f:id:ben_key:20200621113549p:plain

なお、treatmentが複数地点ある場合、全てsplitする。

ステップ2: fixed nodeのdescendantのノードを全て、counter factualな記法に書き換える

splitしたグラフを対象とし、fixed nodeが親であるノードを、 fixed nodeのcounter factualであることがわかるように書き換える。 これはinterventionのノードであっても適用され、(random nodeを)書き換える。

splitしたノードの書き換え例は以下。splitされたノードBやFも書き換えられていることがわかる。

f:id:ben_key:20200621113519p:plain

ちなみに子ではなく子孫であることに注意する。

つかいどころ

random nodeとYの交絡道が切れているか(d-seperatedであるか)判断するようだ。

part3で思い出したように出てくるので困る。

シュミットの内積の性質の確認

目的

以下で定義される、シュミットの内積の残りの性質を確認する。

 \displaystyle \langle A,B \rangle := \sum_{n} \langle A\phi_{n},B\phi_{n} \rangle

以下が確認済みであるとする

 \displaystyle \tag{i} \langle B,A \rangle = \overline{\langle A,B \rangle}

 \displaystyle \tag{ii} \langle aA+bB,C \rangle = a \langle A,C \rangle + b \langle B,C \rangle

 \displaystyle \tag{iii} \langle A,A \rangle \geq 0

 \displaystyle \tag{iv} \langle A^{\ast},B^{\ast} \rangle = \overline{\langle A,B \rangle}

確認したいのは、以下の5つ

 \displaystyle \tag{v} \langle XA,B \rangle =\langle A,X^{\ast}B \rangle

 \displaystyle \tag{vi} \langle AX,B \rangle =\langle A,BX^{\ast} \rangle

 \displaystyle \tag{vii} \langle f \otimes \overline{g} ,A \rangle =\langle f,Ag \rangle

 \displaystyle \tag{viii} \langle A,f \otimes \overline{g}  \rangle =\langle Ag,f \rangle

 \displaystyle \tag{ix} \langle f \otimes \overline{g},u \otimes \overline{v}  \rangle =\langle f,u \rangle \overline{\langle g,v \rangle}

5

まず、 XA,X^{\ast} B \in (\sigma c)になる。シュミットの内積の定義に対して、内積の性質  \langle XA\phi_{n},B\phi_{n} \rangle = \langle A\phi_{n},X^{\ast}B\phi_{n} \rangle  をそのまま突っ込む。

 \displaystyle \langle XA,B \rangle = \sum_{n} \langle XA\phi_{n},B\phi_{n} \rangle =\sum_{n}  \langle A\phi_{n},X^{\ast}B\phi_{n} \rangle=\langle A,X^{\ast}B \rangle

となるのでだいじょうぶそう

6

 \displaystyle \tag{vi} \langle AX,B \rangle \underbrace{=}_{\because iv} \overline{ \langle X^{\ast}A^{\ast},B^{\ast} \rangle }  \underbrace{=}_{\because v}  \overline{ \langle A^{\ast},XB^{\ast} \rangle } \underbrace{=}_{\because iv} \langle A,BX^{\ast} \rangle

7

定義に戻って変形、中に入っているシャッテン積を内積の形に戻し、外側に出す。

 \displaystyle \langle f \otimes \overline{g} ,A \rangle = \sum_{n}   \langle  ( f \otimes \overline{g})\phi_{n},A\phi_{n} \rangle =\sum_{n}  \langle \langle \phi_{n},g \rangle f,A\phi_{n} \rangle=\sum_{n} \langle \phi_{n},g \rangle \langle f,A\phi_{n} \rangle

共役の形で書き換えて、欲しい形にする。

 \displaystyle = \sum_{n} \langle A^{\ast}f,\phi_{n} \rangle  \overline{\langle g,\phi_{n} \rangle}= \langle A^{\ast}f,g \rangle= \langle f,Ag \rangle

8

 \displaystyle \langle A,f \otimes \overline{g}  \rangle =\overline{\langle f \otimes \overline{g},A  \rangle} \underbrace{=}_{\because vii} \overline{\langle f,Ag \rangle}=\langle Ag,f \rangle

9

 \displaystyle \langle f \otimes \overline{g},u \otimes \overline{v}  \rangle = \langle (f \otimes \overline{g})v, u \rangle = \langle v,g \rangle \langle f,u \rangle = \langle f,u \rangle \overline{\langle g,v \rangle}

作用素をなんか良い感じに分解する

概要

任意の作用素 \displaystyle A に対して、 \displaystyle A^{\ast}A が半正値自己共役なので、平方根 \displaystyle (A^{\ast}A)^{- \frac{1}{2}} が一意に定まる。  \displaystyle [ A ] と書く。

Aは、 \displaystyle [A] と部分等長作用素 \displaystyle W を用いて、 \displaystyle A=W[A] と書ける。これを極分解と呼ぶらしい。

これは、ヒルベルト空間の作用素ABに対して、 \displaystyle A^{\ast}A=B^{\ast}B が成立するなら、部分等長作用素Wを用いて \displaystyle A=WB と表すことができるため

で、極分解に関して以下の三つが成立する。

その1: \displaystyle [A] =W^{\ast}A

 \displaystyle [A] =(W^{\ast}W)[A] =W^{\ast} (W[A] ) =W^{\ast}A

部分等長作用素の性質をいろいろ持ち出したけど省略。

その2: \displaystyle [A^{\ast}] =W [A] W^{\ast}

 \displaystyle W^{\ast} W[A] =[ A ] だから、

 \displaystyle (W [A] W^{\ast})(W [A] W^{\ast})=W [A]( W^{\ast}W [A]) W^{\ast} = (W [A])(  [A] W^{\ast})=AA^{\ast}=[A^{\ast}]^{2}

 \displaystyle [ A ] は半正値作用素なので、W [A] W^{\ast}も半正値作用素となる。 だから平方根とってよくって

 \displaystyle W [A] W^{\ast} = [A^{\ast}]

が成立する。

その3: \displaystyle A^{\ast} =W^{\ast}[A^{\ast}]

 \displaystyle W^{\ast}[A^{\ast}] = W^{\ast} W[A] W^{\ast}=[A] W^{\ast} = (W[A])^{\ast}=A^{\ast}

あなたのmatchは何match?

概要

matchingってなんなの?みたいな感じの妄言

基本的な話は全て省略する。

ちなみにps matchingがrctをmimickingしてるとか、そう言う話にも触れない。

今回のテーマは「使用法という意味で使いやすい手法について、その意図や背景が理解しやすいかと言うのは全く別の話なのだなぁ」とした。

そもそもmatchingってなんのためにやるのか

(因果推論における)matchingは、「自分と近しい集団は比較可能だよね」という考えが根底にある。

そこで、同じ属性を持つ個体(あるいはなんらかの尺度で近い個体)を集めて、 その集合で適当に計算をする。

そうして求めた統計量を、何かの効果だとみなしたいのだ

matchingが計算しているものは何か

matcingの注意点として「マッチングによって求めた量が一体何を表すかは自明とは限らない」が挙げられる。

以下でそれをなんとなく考えてみよう。

視点1 データのバランス

例えばuntreated:treated=1:1で全部きれいにマッチしたら、matchingに用いたデータ(つまり取得したデータ全体)に対するaverage treatment effectであると考えれば良い。*1

一方、世の中でマッチングに用いるデータは「untreatedが少ない」とか「treatedが少ない」といった場合がある。

新規の治療法とか、重症の人専用とか、何でも良いが、常にbalancedとは限らない。

さて、そのようにunbalancedなデータをmatchingし計算した量(効果)は一体ナニモノなんだろうか。

例1:treatedが少ない場合

少数のtreatedにマッチする個体を多数のuntreatedから探してきて、全てのtreatedな個体にマッチング相手が探されてきたとしよう。

この場合、求めているのはATTに近くなる。

treated全員に対してmatchするペアを作り直したからだ。

マッチした集団については、internal validityを満たすと考えてよいのだろう。

例2:untreatedが少ない場合

こちらは少数のuntreatedにtreatedを探してくる作業になる。

ATUに近いと考えれば良い(はず)。理由は、上と逆の状況であるから。

例3:なんとなく困るとき

上記の例1と例2から「nが少ない方の集団全体がきれいにマッチしたら、ATTとかATUに似た値が計算できそう」なことは分かった。

実際問題として、そもそも少数の方が全てマッチされるとは限らず、少数の方すら捨てられる個体が存在する。

例えば、いたずらにキャリパーを小さくしたPSMを考えると、少数派の全てがマッチしないことは容易に想像できるよね

こうなると話がややこしくなる。 matched pairは、少数派の中で代表性を持つわけではなく、単に値が近いからマッチしただけなのだ。

ここで計算された効果はATTでもATUでもない。極端には、「treatedの中で、なんか値が似てるものを集めた集団での効果」となるのだ。

「いかなるmodifierもない!」と考えられる場合を除き、これが我々のresearch questionの答えに足る量なのだろうか。

視点2:modifierがあったら?

modifierがあったらmatchingはどうなんねん!と言う話が出た。

絶対にあり得ないと思うが、「modifierでstratifyした集団ごとにmatchして、それがカンペキにmatchしたら、もしかしたら調整してATE計算できるのでは?」と思った。

しかし、modifierのバランスが狂っている状況を生み出す原因を考察し始めると、単純な話でもなさそう。

例えばこんな集団、性別がmodifierだったとする。

(諸々の条件は成立するってことで)

A 性別 割合(%) counterfactual outcome
1 5 a
1 15 b
0 55 0
0 25 0

この例では、男にはa、女にはbの効果。

modifierをガン無視し、ばっちりマッチしたとすると \displaystyle \frac{a+3b}{4}、これはATTでもある。

でもこれ、男:女=6:4だからATEは \displaystyle \frac{3a+2b}{5}

男だけマッチするとconditionalなeffectでaが求められる。 女だけでマッチすると同様にbが求められる。

これをmodifierの比率でウェイトバックすると、 \displaystyle \frac{3a+2b}{5}になってATEになっているから、matchingでも計算できて嬉しい・・・?

注意:言うまでもないが、層別してもmatchingが必ず成立する非常に限定的な状況

ほぼ間違いなく上記の例は、あまりにも単純すぎて本来考えるべき状況をmimickできていない気がする。

例えば、以下の例なら男女のマッチペアが存在できるため一気にややこしくなりそう。 そもそも層別してさらにマッチングとか、positivity死にそうな気がするけどいいの?とか。疑問は尽きない。

A 性別 割合(%) counterfactual outcome
1 5 a
1 15 b
0 55 c
0 25 d

思ったこと

いや、IPW使いますよね、ここまできたら。

ていうかconditional effectを求めるためにmatching使っただけで、ウェイトバックってipwですよね。

*1:そんな良いデータが存在するのかはここでは考えない

a=0でのリスク比とmodifier

概要

例の本の4.3、marginalなりすくとconditionalなりすくの関係性について。

それらしく書いてみたけど、中学生レベルの計算であり、中身はない。

設定

 l \in Lにおいて、conditionalなりすく比 \frac{P(Y^{a=1}=1|l)}{P(Y^{a=0}=1|l)}は分かっていて、

それでいて、marginalなりすく比 \frac{P(Y^{a=1}=1)}{P(Y^{a=0}=1)}が1未満になって欲しいような状況があるとする。

このとき、どういう状況を確かめればいいんだろうか、と読むことにする。

方針

面倒になったので普通に書く

まず、周辺でのrrを、特定のconditionalなrrで書き換える。

そのため、書き換えられるよう、都合のよい式変形をおこなう。

 \displaystyle \frac{P(Y^{a=1}=1)}{P(Y^{a=0}=1)} =\frac{1}{P(Y^{a=0}=1)}\sum_{l \in L} P(Y^{a=1}=1|l)P(l)

 \displaystyle = \frac{1}{P(Y^{a=0}=1)}\sum_{l \in L} P(Y^{a=1}=1|l)P(l) \frac{P(Y^{a=0}=1|l)}{P(Y^{a=0}=1|l)}

 \displaystyle \tag{1}  = \sum_{l \in L} \frac{P(Y^{a=1}=1|l)}{P(Y^{a=0}=1|l)} \left\{ \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}  \right\}

ここで、 \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}をw(l)とでもおけば、conditionalとmarginalの橋渡しができるweightと考えることができる。

weightをlで周辺化したら1になるのは明らか。

一方、 w(l)=  P(l|Y^{a=0}=1) と変形することもできる。

式変形その2

層lのconditionalなrisk ratioをr(l)とおく。(1)が<1となるような不等式を考える。

 \displaystyle (1)= \sum_{l \in L} r(l) \frac{P(Y^{a=0}=1|l)P(l)}{P(Y^{a=0}=1)}  \lt 1

左辺をてきとうに変形して、何かしら考察する。

分母はlに依存しないからどうにかできる。

 \displaystyle \sum_{l \in L} r(l) P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

右辺を0にするため、良い感じの項を作る。

 \displaystyle \sum_{l \in L} \{ 1-(1-r(l)) \} P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

 \displaystyle P(Y^{a=0}=1) -  \sum_{l \in L} (1-r(l)) P(Y^{a=0}=1|l)P(l)  \lt P(Y^{a=0}=1)

両辺から引いて消す

 \tag{2} \displaystyle \sum_{l \in L} (1-r(l)) P(Y^{a=0}=1|l)P(l) \gt 0

ここから、次の3者の関係で、(1)<1となる条件を考察できそうだ。

  • lの偏り
  • lでの(ベースラインというかuntreatedな)リスク
  • lでの1-リスク比

必要な値

とはいえ、これだとgivenな値が少なすぎて直感的でない。

いったん、 l=\{0,1\}として(2)式を具体的に考えてみる。

 \displaystyle  (1-r(0)) P(Y^{a=0}=1|0)P(0) + (1-r(1)) P(Y^{a=0}=1|1)P(1) \gt 0

適当に変形して

 \displaystyle  (1-r(0)) P(Y^{a=0}=1|0)P(0)  \gt  - (1-r(1)) P(Y^{a=0}=1|1)P(1)

もう少し適当に変形して

 \displaystyle  \left( -\frac{1-r(0)}{1-r(1)}  \right) \frac{P(0)}{P(1)}  \lt   \frac{P(Y^{a=0}=1|1)}{P(Y^{a=0}=1|0)}

ここから、層内のリスク比が1から正負のそれぞれの方向に離れているとき、marginalなリスク比が1未満となる状況を整理できそう。

左辺の1-r(l)に関連する比が、良い感じに崩れていることが要求されるっぽい。

個別具体の数値例は、上式に適当に値を突っ込めばOK

書籍のあれだと、r(0)=2でr(1)=0.5だから、

 \displaystyle  \frac{2P(0)}{P(1)}  \lt   \frac{P(Y^{a=0}=1|1)}{P(Y^{a=0}=1|0)}

となるから、P(0)とP(1)、つまりlの存在比と、それぞれで条件づけたリスクの比で決まる、と読めば良いのかな。

untreatedな状態で高リスクな層があるけど、存在割合は少ないから全体的にはそうでもない、とかそんな。

しかしこれだと、lがbinary以外の場合における考察にどれくらい有用なんだろう?

悲しみのメモ

sharp causal null hypothesisの話

sharp causal null hypothesisってなんなのという話。

A definition of causal effect for epidemiological research | Journal of Epidemiology & Community Health

これを見ると、例えば2値の割付A (=\{0,1\})において、populationのどのような個人にも効果がない状態を

 ^{\forall} \omega  \in  \Omega ,Y^{a=1}(\omega)-Y^{a=0}(\omega)=0

とし、sharp causal null hypothesisがtrueだと書いてあった。

好みで記法ちょっと変えていて、individualを \omega で、populationを \Omegaで書いた。こっちの方が X(\omega)みたいで確率変数っぽくみえるよね。

ちなみに、命題「sharp null .... が真→ATE=0」は正しい。

というのも、 ^{\forall} \omega  \in  \Omega ,Y^{a=1}(\omega)-Y^{a=0}(\omega)=0 なんだから、ATEも \sum _{\omega \in \Omega} Y^{a=1}(\omega)-Y^{a=0}(\omega)=0になるよね。

nondeterministic potential outcomeの話

以下では、TP1.2*1の計算の気持ちが掴めなかったので、雑に考えてみる。

それっぽい変形を考えてはみたけど、確率1で間違っている。

期待値の変形が何度かされていたんだけど、それぞれが一体なんの分布の上で積分してるのか全く直感的でなかったので、なんとかこれを補いたいのがモチベーション。

量子とかそういうのは興味がないので、以下、そう言った視点は全て捨てる。

non deterministicな状況をどう考えるか*2は余地がありそう。反応を規定する要素を完全に取り込み切れていない状態と考えられるならば、それっぽい感じがある。

もし、potential outcomeがdeterministicではなかったとし、A=aにおけるpotential outcomeの分布がパラメータtに依存し、tはなんらかの分布を持つとする。

潜在反応のpdfを \theta _{Y^{a}_{i}}(y,t)と書く。さらにtの分布をp(t)とおく。

ここから、potential outcomeの平均的なpdfを f_{Y^{a}}(y)としたら、次のように計算できる?*3S(t)はオレオレ記法でtの台の意味。

 f_{Y^{a}}(y)=\displaystyle \int _{S(t)}\theta _{Y^{a}_{i}}(y,t)p(t)dt

このとき、the average potential outcome in the populaition E[Y^{a}]は、おそらくこういう量を計算しようとしているんじゃないかな?と思う。

 \displaystyle \int_{S(y)} y f_{Y^{a}}(y) dy = \int_{S(y)} y \int _{S(t)} \theta _{Y^{a}_{i}}(y,t) p(t)dt dy= \int_{S(t)}  \underbrace{\int _{S(y)}y \theta _{Y^{a}_{i}}(y,t) dy}_{=\int y d\Theta_{Y^{a}}(y)?}  p(t)dt

もしこれが正しいなら、朧げに何を計算しているかをなんとなくイメージできた気がする。

参考にしようと思ったけど、結局読まなかった。

Stochastic counterfactuals and stochastic sufficient causes

*1:stochastic potential outcomeの方が検索でひっかかりが良さそうな

*2:正当化するか

*3:簡単な例を計算したら一応確率分布っぽくなっていた

おしだせ、しゅうごうのぞく

内容

 \displaystyle \sigma 加法族を押し出した場合にも \displaystyle \sigma 加法族になることを考える練習

何年か前の自分の為に書いた。強烈にくどい書き方であるが、当時の私にはこれくらいでないと分からない。

押し出しの定義

集合X,Y

関数 \displaystyle f:X \rightarrow Y

集合族 \displaystyle \mathscr{A} \subset 2^{X} \displaystyle \mathscr{B} \subset 2^{Y}

を用いて、押し出しを次の通り定義する*1

押し出し :  \displaystyle f ( \mathscr{A}) := \left\{ B \subset Y : f^{-1} (B) \in \mathscr{A}  \right\}

ここから、ある集合Zについて Z \in \displaystyle f(\mathscr{A}) を示すには、その逆像が \displaystyle f^{-1}(Z) \in \mathscr{A} となることを示せばよいことがわかる。

押し出しで示したいこと

 \displaystyle \mathscr{A}  \displaystyle \sigma 加法族なら \displaystyle f ( \mathscr{A} )  \displaystyle \sigma 加法族

 \mathscr{A} \displaystyle \sigma 加法族であることは前提になっている

このあと表記上の理由から、 \displaystyle \mathscr{B}=f ( \mathscr{A})とおく。(文字数を減らしたいだけ)

1. 空集合を含む

示すべき内容

 \displaystyle \varphi _{Y}   \in  \mathscr{B}

方針

特になし。 \displaystyle f^{-1}(\varphi_{Y}) \in \mathscr{A} を示すだけ。

【証明】

空集合の逆像は空集合なので「 \displaystyle f^{-1}(\varphi_{Y})=\varphi_{X} 」である。

仮定より \displaystyle  \mathscr{A}  \displaystyle \sigma 加法族であるから、 \displaystyle \varphi_{X} \in  \mathscr{A}

まとめると、次の通り。

 \displaystyle f^{-1}(\varphi_{Y})=\varphi_{X}  \in \mathscr{A}

ということで、 \displaystyle f^{-1}(\varphi_{Y})  \in \mathscr{A} が証明できた。

2. 補集合で閉じる

示すべき内容

 B \in \mathscr{B} \Rightarrow \displaystyle f(Y \setminus B) \in \mathscr{B}

方針

 \displaystyle B \in \mathscr{B} のとき、 \displaystyle Y \setminus B \in \mathscr{B} であることを確認すればよい。

そのため、 \displaystyle \mathscr{B} の定義から、「 \displaystyle Y \setminus B \subset Y 」と「 \displaystyle f^{-1}(Y \setminus B) \in \mathscr{A} 」が成立することを示せばよい。ただし前者はまぁ自明っぽいよねということで後者だけ確認する。

【証明】

ある集合Bが \displaystyle B \in \mathscr{B}とする。 このとき押し出しの定義から \displaystyle f ^{-1}(B) \in \mathscr{A}である。

仮定より \displaystyle  \mathscr{A}  \displaystyle \sigma 加法族であるから、( \displaystyle  f^{-1}(B) \in \mathscr{A} なので、) \displaystyle X \setminus f^{-1}(B) \in  \mathscr{A} となる。

ここで、「 \displaystyle f ^{-1}(Y) =X」と「 \displaystyle f ^{-1}( S \setminus T) =f^{-1} (S)\setminus f^{-1}(T)」を考えると、次のようになる。

 \displaystyle f^{-1}(Y \setminus B)=f^{-1}(Y) \setminus f^{-1}(B)= X \setminus f ^{-1}(B) \in \mathscr{A}

ということで、 \displaystyle f^{-1}(Y \setminus B) \in \mathscr{A} が確認できたので証明できた。

3. 加算加法性を持つ

示すべき内容

 \displaystyle B _{n} \in \mathscr{B} \Rightarrow   \bigcup B _{n}   \in   \mathscr{B}

方針

 \displaystyle B _{n} \in \mathscr{B}のとき \displaystyle  \bigcup B _{n}   \in   \mathscr{B} であることを確認すればよい。

先と同様に、 \displaystyle \mathscr{B} の定義から、「 \displaystyle f^{-1}(\cup B _{n}) \in \mathscr{A} 」が成立することを示せばよい。

【証明】

可算個の集合 B_{n} \displaystyle B_{n} \in \mathscr{B}とする。 このとき押し出しの定義から \displaystyle f ^{-1}(B_{n}) \in \mathscr{A}である。

仮定より \displaystyle  \mathscr{A}  \displaystyle \sigma 加法族であるから、( \displaystyle  f^{-1}(B_{n}) \in \mathscr{A} なので、) \displaystyle \bigcup f^{-1}(B) \in  \mathscr{A} となる。

ここで、「 \displaystyle f^{-1} (\cup B_{n})= \bigcup f ^{-1}(B_{n})」を考えると、次のようになる。

 \displaystyle f^{-1}(\cup B _{n}) \in \mathscr{A} = \bigcup f ^{-1}(B_{n}) \in \mathscr{A}

ということで、 \displaystyle f^{-1}(\cup B _{n}) \in \mathscr{A}が確認できたので証明できた。

補足:証明のために必要な内容

式変形でしれっと使用した関係がいくつかあるので、書いておく。

関係1 :  \displaystyle f^{-1}(\varphi)=\varphi

これ約束か定義だと思う。

関係2 :  \displaystyle f^{-1}(Y)=X

これは逆像の定義をよく考えたら全射単射に関係なく成立する。

関係3 :  \displaystyle f ^{-1}( S \setminus T) =f^{-1} (S)\setminus f^{-1}(T)

 \displaystyle f ^{-1}( S \setminus T) = \{x \in X; f(x) \in S \setminus T \}

 \displaystyle = \{x \in X; f(x) \in S  \} \setminus \{x \in X; f(x) \in T \}

 \displaystyle =f^{-1} (S)\setminus f^{-1}(T)

関係4 :  \displaystyle f^{-1} (\cup A_{n})= \bigcup f ^{-1}(A_{n})

 \displaystyle f^{-1} (\cup A_{n})= \{ x \in X ; f(x) \in \cup A_{n} \}

 \displaystyle = \{ x \in X ; f(x) \in A_{1} \} \cup \{ x \in X ; f(x) \in A_{2} \} \cup \cdots

 \displaystyle = \bigcup \{ x \in X ; f(x) \in A_{n} \} = \bigcup f ^{-1}(A_{n})

*1:押し出しも引き戻しも、どちらも逆像で定義している