「因果関係の確立のためには、同じ固体に対し、処置を施した場合と施さなかった場合での結果を観察し、結果が異なるのであれば、処置効果があったといえるであろう」(出典:ジョン・スチュアート・ミル著書『論理学体系』)
John Stuart Mill (1806-1873)
outcomes
)
を想定するJerzy Neyman (UC Berkeley) 1894-1981
Donald B. Rubin (Harvard University) 1943-
Rubin Causal Model (RCM)
潜在アウトカムの考え方を、実験研究から観察研究に拡張した
傾向スコアを導入した
同じ個体で、{Yi(1), Yi(0)}
の組を同時には観察できない
同一人物が処置を受けたとすれば、その人が処置を受けなかった時の結果は絶対に観察できない
→ 因果推論における根本問題 (Holland, 1986)
→ 反事実モデル counterfactural model ともいう
{Yi(1), Yi(0)}
が想定できるものだけを評価対象にする
「操作なくして因果なし 」No causation without manipulation
出典:PW Holland, 1986, Statistics and causal inference (with
discussion)
Journal of the American Statistical Association, 81,
945-970
・塾の夏期講習への参加と成績
・選挙ポスターにおける候補者の笑顔と得票率
・月の引力と潮の満ち引き(物理の法則は操作できない)
・発展途上国と先進国での乳児死亡率の違い(国の発展度合いは操作できない)
・性別と給料の差(生まれてしまった人の性別は操作できない)
i
が「治癒したか」「治癒せず」は確率的ではない結論・確率的に定められる変数は \(Y_i({D_i})\) ではなく処置を表す変数 \(D_i\)
・\(D_i\)
は「どの個体が観測されるのか」を表す変数
a + b の中で a が治癒する(=二項分布の実現値)
c + d の中で c が治癒する(=二項分布の実現値)
これが一般的なデータ解析における基本的な考え方
二つの変数の関連性はピアソンカイ二乗検定を使って検定する
\[\chi^2 = \frac{N(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\]
a+b, c+d は固定
a+c, b+d は確率的変動
i
が「治癒したか」「治癒せず」は確率的ではない
\(D\) が確率的な変動
→ A+B, C+D, A+C, B+D は固定されている=既知である
四分表の周辺度数が既知の場合、セル度数 A は超幾何分布に従う
\(α\) は超幾何分布
\[p(α) = \frac{_{(a+b)}C_a・_{(c+d)}C_c}{_{(a+b+c+d)}C_{(a+c)}}\]
SUTVA
条件SUTVA
)SUTVA
条件は次の二つから構成されるi
の潜在的アウトカム
{Yi(1), Yi(0)}
は他の個体の受ける処置に依存しないno interference
)」ということinterference
)とは、各個体の潜在的アウトカムが他の個体に依存してしまうことSUTVA
条件が成り立たない場合を考えてみるi
に対する処置は 1 通りexclusive restriction
)
処置に至る経緯は無関係exclusive restriction
)
が成り立たない場合を考えてみる例)「ダイエットの効果」が意味することを明確にする必要あり
どちらの効果を確認したいのか、処置を一通りに定める必要あり
i
の処置の割付けを表す変数これは、処置の場合(\(D = 1\))に観測される \(Y\) の期待値という意味
これは、処置なしの場合(\(D = 0\))に観測される \(Y\) の期待値という意味
10人は5人ずつ均等に割り振られている
しかし、不適切に割付られている
→ 実際は 0 である個体処置効果を 0.6 と誤って推定
\(E[Y|D = 1] – E[Y|D = 0] = 1 - 0.4 =
0.6\)
この値 (0.6) が表しているのは・・・
\(D = 1\) の時の \(Y(1)\) の期待値と \(Y(0)\) の期待値の差
\[E[Y(1)|D=1] - E[Y(0)|D=0]\]
これは私たちが知りたい「平均処置効果」\(E[Y(1)]-E[Y(0)]\)ではない
「観測される値の期待値の差」は「平均処置効果」ではない
まとめ ・\(E[Y|D = 1] – E[Y|D = 0]\):「観測されるアウトカムの期待値の差」
・\(E[Y(1)] − E[Y(0)]\): 私たちが知りたい「平均処置効果」
→ 両者は同じではない.
Identifiability
)estimable condition
){Y(1), Y(0)} ⊥ D
{Y(1), Y(0)}
からも独立実際に観測した \(E[Y|D=1] - E[Y|D=0] = 0.6-0.4 = 0.2\)
私たちが推定したいと思っている平均処置効果 \(\delta = 0.2\) を正しく推定している
推定したい平均処置効果:\(\delta = E[Y(1)]-E(Y(0)] = 0.6-0.4 = 0.2\)
しかし、私たちが知りたいのは観測できない \(E[Y(1)]\) と \(E[Y(0)]\)
=
「全員が処置を受けた場合の期待値」と「全員が処置を受けない場合の期待値」
上の図の「観測できる左側2つの式」と「観測できない右端の式」をイコールで結ぶための条件: 独立性の条件
独立性の条件(= A と B が独立である条件)・B が与えられた時の A の確率は A の確率に等しい
・B が与えられた時の A の期待値は A の期待値に等しい
統計的独立性
・ランダムにシャッフルされた52枚のトランプから一枚カードを引いて、それがエースである確率
・起こりうるアウトカム(=標本空間)は52通り
・カードには4枚のエースが含まれているので、一枚のカードがエースである確率は
0.077
\[Pr(エース)
= \frac{エースの数}{標本空間} = \frac{4}{52} = 0.077\]
・1枚目に引いたカードがエースだとする
・2枚目に引くカードがエースである確率は
\[Pr(エース|1枚目のカードがエース) = \frac{3}{51} = 0.059\]
・非復元抽出の場合、次の二つの事象は独立ではない:
・1枚目に引いたカードがエース
・2枚目に引くカードがエース
・2つの事象が独立であるためには、1枚目に引いたエースをトランプに戻して、再度シャッフル(=復元抽出)する必要がある
・事象 A と事象 B が独立であるのは次の場合のみ
{Y(1), Y(0)}
と割付変数 \(D\)
の間でこの独立性の条件が満たされれば観測できる「処置と対照ごとの \(Y\) の期待値」を使って
観測できない「全員の \(Y(1), Y(0)\)
の期待値」を推定できる
観測できる \(E[Y|D=1] -
E[Y|D=0]\) を使って
観察できない「平均処置効果 \(\delta = E[Y(1) -
E[Y(0)]\)」を推定できる
どの変数が「独立」なのかに注意
・上で「潜在的アウトカム
{Y(1), Y(0)}
と割付変数 \(D\)
の間でこの独立性の条件が満たされれば
」と書いたが、どの変数とどの変数が独立なのかに注意が必要
{Y(1), Y(0)}
と割付変数
\(D\) が独立」の場合:→ 処置効果を偏りなく推定できる
(つまり、\(E[Y|D=1] = E[Y|D=0]\)
なら)→ 処置には効果がない
・D が 1 の時の Y の期待値と、D が 1 の時の Y
の期待値が等しくなるから
・「観測変数 \(Y\) と割付変数 \(D\) が独立でない」場合:
(つまり、 \(E[Y|D=1] ≠ E[Y|D=0]\)
なら)
・D が 1 の時の Y の期待値と、D が 1 の時の Y の期待値が異なるから
・D ごとに Y の値が異なる
→ 処置には効果がある
実際のデータ解析では「処置」と「アウトカム」意外に様々な変量(=変数)がある
共変量 (covariate
) \(X\) :
処置の割り付け以前に観測される変量
処置の影響を受けない変量のこと
0 < P(D=1|X) < 1
共変量 \(X\)
が与えられた時に、処置が割り付けられる確率は「0よりも大きく、1よりも小さい」
(「0以上、1以下」 ではないことに注意)
すべての \(X\) に対して成り立つ必要がある → かなり強い条件
{Y(1), Y(0)} ⊥ |X
共変量 \(X\) が与えられた時に、潜在的アウトカム {Y(1), Y(0)} と割り付け変数 \(D\) が独立である
無交絡性 = 条件付き交換可能性
処置の割り付けに影響を与えるのは \(X\) のみ
\(X\) 意外に割り付けに影響を与える変数はないという仮定
\[A + B = 強い意味での無視可能な割り付け\]
\[A⊥B|C => P(A|B, C) = P(A|C)\]
D = 1
なら Y(1)
が観測され、D = 0
なら Y(0)
が観測される
Y
に関して、私たちは観測可能量しか観測できない\[観測可能量 Y = DY(1) + (1-D)Y(0)に対して\]
X
という共変量が与えられた時に、処置 (D=1)
における観測可能量 Y
の期待値をもとめる\[E[Y|D=1, X] = E[Y(1)|D=1, X] = E[Y(1)|X]\]
X
という共変量が与えられた時に、処置 (D=0)
における観測可能量 Y
の期待値をもとめる\[E[Y|D=0, X] = E[Y(0)|D=0, X] = E[Y(0)|X]\].
\[E[Y|D=1, X] - E[Y(1)|D=0, X] = E[Y(1)|X]-E[(Y0)|X]\]
\(X\) の分布で期待値をとる
\(X\) が与えられたもとでの \(Y\) の期待値を求める式では、\(X\) の部分が消える
\[E_X[E[Y|D=1, X] - E[Y|D=0, X]] \\ = E_X[E[Y(1)|X] - E[Y(0)|X]] \\ = E[Y(1)] - E[Y(0)] = \sigma\]
Standardization
){Y(1), Y(0)⊥D|X}
を仮定Y(1)
の期待値 \(E[Y(1)]\) を求めてみるX
で条件を付けた時の \(Y(1)\) の期待値: \(E[Y(1)|X=x]\)X
がそういう条件になる確率:\(P(X=x)\)X
に関してその総和をとる\[E[Y(1)] = \sum_{x}E[Y(1)|X=x]P(X=x)\\ = \sum_{x}E[Y(1)|D=1, X=x]P(X=x)\\ = \sum_{x}E[Y|D=1, X=x]P(X=x)\\\]
→ Y(1)
の期待値 \(E[Y(1)]\) は観測可能量(共変量 \(X\) と観察された結果 \(Y\))によって推定できる
Y(0)
の期待値 \(E[Y(0)]\) でもあてはまるX
で条件を付けた時の \(Y(0)\) の期待値: \(E[Y(0)|X=x]\)X
がそういう条件になる確率:\(P(X=x)\)X
に関してその総和をとる\[E[Y(0)] = \sum_{x}E[Y(0)|X=x]P(X=x)\\ = \sum_{x}E[Y(0)|D=0, X=x]P(X=x)\\ = \sum_{x}E[Y|D=0, X=x]P(X=x)\\\]
→ Y(0)
の期待値 \(E[Y(0)]\) は観測可能量(共変量 \(X\) と観察された結果 \(Y\))によって推定できる
セレクションバイアス (Selection Bias
)
の定義:
「原因として考えている変数(処置変数)と結果変数の関係が、想定する因果関係以外に存在する状況」
「処置の値」と「潜在的結果」の間に相関があるということ
=
「処置を受けた群」と「受けていない群」で、結果のベースラインに違いがある
=
例えば「通院する人」(処置を受けた群)と「通院しない人」(処置を受けない群)では、もともとの健康状態に違いがある
→ もともと健康状態が良い人は通院しない
→ もともと健康状態が悪い人が通院する
セレクションバイアスの問題点・ 調査・観察データを使った単純比較では、多くの場合、セレクションバイアスのせいで因果効果は特定できない
→ セレクションバイアスへの対処が、因果推論にとって最大の課題
セレクションバイアスの種類
(1) サンプルセレクション | 母集団からかけ離れたサンプルをとること |
(2) セルフセレクション | 個人が自らの意思に行動を選択した結果、ある行動を取る人たちのグループと取らない人たちのグループの間で特性の差が生じる |
サンプルセレクションの例:
知りたいこと:早稲田大学政経学部全ての学生の統計学の知識
母集団:早稲田大学政治経済学部の全ての学生
サンプル:「計量分析(政治)」を履修している学生
→ 「計量分析(政治)」を履修する学生はもともと計量分析に興味がある
→ このサンプルは母集団からかけ離れたサンプルである可能性が高い
対策:調査対象の選定に注意して、早稲田大学政経学部全ての学生から無作為にサンプルをとる
シンプソンのパラドクスとは、全体でみた解釈と部分で見た解釈が異なるという現象
確認したいこと:「運動する」→「コレステロールが下がる」
x 軸に「運動量」、y 軸に「コレステロール値」をとってプロットしてみる
Source: Judea Pearl and others, 2016, Causal Inferences in
Statistics
→ 運動量が多い人ほどコレステロール値が高い!
→ 常識と反する結果!
-
ここで確かめたい因果関係は「運動する」→「コレステロール値が上がる(下がる)?」
-
「想定する因果関係以外の変数」として「年代」を考える
- 上のグラフを年代別に分けて表示してみる
Source: Judea Pearl and others, 2016, Causal Inferences in
Statistics
データからわかる事実:
年代別に「運動量」と「コレステロール値」の関係を見ると負の相関がある
年代別に見ると「運動する」→ 「コレステロール値が下がる」関係がある
若い人はもともとコレステロール値が低い人が多い
年を経るにつれてコレステロール値が高くなる
→「年代」を考慮しないと「運動する」と「コレステロール値が上がる」ように見える
「運動をするかどうか」という判断は個人の判断
=> セルフセレクション (self-selection
)
3 つの変数(年齢、運動、コレステロール値)の関係を図示してみる
結論・全体で見ると、運動するとコレステロール値は上がる
・しかし、年代別に見ると、運動するほどコレステロール値は下がる
・「年代」のようなセレクションバイアスを考慮する必要がある
データからわかる事実:
通院しなかった人の方が健康(健康状態の平均値:
3.21 < 3.93
)
→ 常識と反する結果!
なぜ通院すると健康でなくなるのか?
これは因果関係なのか?
ここで想定する因果関係は「通院する」→「健康になる」
なぜ通院すると不健康になるのか?
【考えられる理由】:
(1) 病人から病気が感染してしまう
(2) 医療ミスのせいで健康を害する・・・等々
self-selection
)結論・
病院に行ったからといって不健康になるわけではない
・ 「もともとの健康状態」を考慮すべき
まとめ・ 調査・観察データを単純比較しても因果効果はわからない
その理由 → セレクションバイアスがあるから
・ セレクションバイアスがあると正しい因果効果が推定できない
通院しない |
通院する |
→ このことを変数 D
で表す
→ 変数 D
は「処置 (treatment
) 」
と呼ばれる
→ D= 0
なら「通院しない」
→ D= 1
なら「通院する」
(1) 最悪 |
(2) 悪い |
(3) 普通 |
(4) 良い |
(5) 最良 |
\(Y(1)\) | : その人が通院したときの、健康状況 |
\(Y(0)\) | : その人が通院しないときの、健康状況 |
D = 1
) についての \(Y(1)\) は観測できるD = 0
) についての \(Y(0)\) は観測できないD = 0
) についての \(Y(0)\) は観測できるD = 0
) についての \(Y(1)\) は観測できない\(Y(0)\) と \(Y(1)\) は同時には観察(= 測定)できない
個人 | : i = 1, 2, 3,…, N・・・個体を表す ID |
処置 (treatment) | : \(D_i ∈ {0, 1}\)・・・原因となる変数 |
処置を受けた(通院する):\(D_i = 1\) | |
処置を受けない(通院しない):\(D_i = 0\) | |
結果 (outcome) | : \(Y_i ∈ {1, 2, 3, 4, 5}\)・・・5 段階の健康状態 |
潜在的結果 (potential outcome) | : |
\[ Y_{i}\left(D_{i}\right)=\left\{\begin{array}{ll} Y_{i}(1) &\text { if } D_{i}=1(ここでは「通院する」)\\ Y_{i}(0) & \text { if } D_{i}=0(ここでは「通院しない」)\end{array}\right. \]
\[Y_i = D_iY_i(1) + (1-D_i)Y_i(0)\\= Y_i(0) + [Y_i(1) - Y_i(0)]D_i\] \(D_i = 0\) の時 \[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i = Y_i(0)\] \(D_i = 1\) の時 \[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i = Y_i(1)\]
i
の潜在的アウトカム
{Yi(1), Yi(0)}
\(Y_i(1) = 1, Y_i(0) = 1\) | 効果なし | \(Y_i(1) - Y_i(0) = 0\) | 薬を服用してもしなくても治癒 |
\(Y_i(1) = 1, Y_i(0) = 0\) | 効果あり | \(Y_i(1) - Y_i(0) = 1\) | 薬を服用すると治癒 |
\(Y_i(1) = 0, Y_i(0) = 1\) | 効果あり | \(Y_i(1) - Y_i(0) = -1\) | 薬を服用しないと治癒 |
\(Y_i(1) = 0, Y_i(0) = 0\) | 効果なし | \(Y_i(1) - Y_i(0) = 0\) | 薬を服用してもしなくても治癒せず |
Individual Treatment Effect: ITE
)Average Treatment Effect: ATE
)\(E[Y(1) -
Y(0)]\):母集団における全ての個体の処置効果の期待値
\(E[Y(1)]\):母集団の全ての個体に処置を施したときの期待値
\(E[Y(0)]\):母集団の全ての個体が処置を受けなかったときの期待値
母集団の全ての個体が「処置を受け」かつ「処置を受けない」(=対象となる)ことはできないはず・・・
→ しかし、これは工夫によって可能になる
因果推論を実現するために、私たちが知っておくべき「処置効果」は次のとおり
私たちが最終的に知りたいのは「群間の因果効果」である「平均処置効果 ATE
」
処置効果の種類 | 略称 |
1. 個体処理効果 | ITE : individual treatment effect |
2. 平均処置効果 | ATE : average treatment
effect |
3. 処置群における平均処置効果 | ATT : average treatment effect for the treated |
4. 統制群における平均処置効果 | ACT : average treatment effect for the control |
・ ランダム化比較実験
(RandomiDed Controlled Trial: RCT
)
によって、ランダムに(無作為に)処置群と統制群が決まる場合
→ 2 群の期待値を単純比較すれば「平均処置効果
ATE
」を計算できる
・ しかしほとんどの「調査・観察データ」にはセレクションバイアスが含まれている
→ 単純比較するだけでは「平均処置効果
ATE
」を計算できない
個体処置効果 \(δ_i\):
ITE (individual treatment effect)
個人レベルの処置効果(因果効果)
個体 \(i\) に関する因果効果 \(δ_i\)(デルタ)は「潜在的結果の差」を表す
\[δ_i ≡ Y_i(1) - Yi(0)\]
通院の事例を使うと、同一人物が「通院した場合の健康状況 \(Y_i(1)\)」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差のこと
因果効果は同一個体の同一時点での「潜在的結果の差」によって定義される
観察される結果 \(Y_i\) は、二つの可能な行動 \(D_i\) の確率の関数なので、次のように表記できた
\[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i\]
\[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i\\ = Y_i(0) + δ_i(D_i)\]
\(Y_i(0)\) | : 結果のベースライン(5 段階の健康状態) |
\(δ_i\) | : 因果効果 |
\(D_i\) | : 処置の有無: \(D_i = 1\)なら通院、\(D_i = 0\)なら通院しない |
「潜在的結果の差」\(δ_i ≡ Y_i(1) - Yi(0)\)
通院の事例を使うと、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がゼロ (\(δ_i = 0 )\) なら、通院と健康状態の間には「因果効果なし」
他方、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」
と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がプラス (\(δ_i > 0 )\) なら「通院は健康状態を改善させるという因果効果がある」
また、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がマイナス (\(δ_i < 0 )\) なら「通院は健康状態を悪化させるという因果効果がある」
しかし、例えば2021年4月の一ヶ月間の間、菅総理大臣が毎週月曜日に東大病院に「通院する」ことと「通院しない」ことを同時に観察することはできない
菅総理が経験し観察できるのは「通院する」か「通院しないか」のどちらか片方だけ
→ つまり、
2 つの潜在的結果である \(Y_i(1) と Y_i(0)\) は同時に観察することはできない
→ 因果推論の根本問題 (Holland 1986)
処置 | 潜在的結果 | 潜在的結果 |
\(Yi(1)\) | \(Yi(0)\) | |
あり \(D_i = 1\) | \(Y_i\) として観察される | 観察できない |
なし \(D_i = 0\) | 観察できない | \(Y_i\) として観察される |
個体の因果効果は観察できない!
→ 個人の因果効果は観察できないので諦める
観察対象 | 潜在的結果 \(Y_i(1)\) | 潜在的結果 \(Y_i(0)\) | 個体レベルの因果効果 \(δ\) |
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(Y_1(1)-Y_1(0)\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(Y_2(1)-Y_2(0)\) |
3 | \(Y_3(1)\) | \(Y_3(0)\) | \(Y_3(1)-Y_3(0)\) |
. | . | . | . |
. | . | . | . |
\(i\) | \(Y_i(1)\) | \(Y_i(0)\) | \(Y_i(1)-Y_i(0)\) |
. | . | . | . |
. | . | . | . |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(Y_N(1)-Y_N(0)\) |
・ 個体レベルの ITE
(個体処置効果
\(δ_i\)) は観察できないが、集団の平均なら観察できる
ATE
)ATE (average treatment effect)
ATE
)」を計算する\[ATE = E[Y(1) - Y(0)] = E[Y(1)] -
E[Y(0)]\]
\(E[Y(1)]\): 全ての個体が処置 1
を受けたとき(= 通院する)の結果の期待値
\(E[Y(0)]\): 全ての個体が処置 0
を受けたとき(= 通院しない)の結果の期待値
処置群と統制群
処置の値が 2 つ (0 or 1) しかないとき
→ 処置 1 を受ける =「処置を受ける」= 「通院する」
処置を受けた個体のグループ:処置群(実験群)
→ 処置 0 を受ける =「処置を受けない」=「通院しない」
処置を受けない個体のグループ:統制群(比較群)
平均処置効果 (ATE
) は観察可能? → NO!
\[ATE = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)]\]
→ 私たちが知りたい「期待値の差」は計算できない
ATT
と ATC
)ATT
を計算できるATC
を計算できる→ 群間比較で因果効果 (ATE
) を推定できる
ATT
(処置群における平均処置効果)ATT
とセレクションバイアスの関係をフォーマルに表してみるD=0
であれば)「もともとの健康状態が同じ」ならATE
は推定できないが、ATT
が推定できるATC
(統制群における平均処置効果)ATC
とセレクションバイアスの関係をフォーマルに表してみるD=0
であれば)「もともとの健康状態が同じ」ならATE
は推定できないが、ATC
が推定できるATE
(平均処置効果)が計算できる条件 ATT
)
と統制群における平均処置効果 (ATC
) が計算できるATE
) が計算できるATT
と「通院しない集団」における ATC
が計算できるATE
を計算できる