1. 潜在結果アウトカム (potential outcomes)

潜在結果アウトカムの基本的な考え

  • 英国の哲学者ジョン・スチュアート・ミルの因果関係に関する考え

「因果関係の確立のためには、同じ固体に対し、処置を施した場合と施さなかった場合での結果を観察し、結果が異なるのであれば、処置効果があったといえるであろう」(出典:ジョン・スチュアート・ミル著書『論理学体系』)


John Stuart Mill (1806-1873)

  • ここでの問題:「同じ個体」は得られるのか?
  • 化学実験であれば、「同じ個体」は用意できる
  • 生物学における動物実験であれば「同系統のマウス」を用意可能
  • 人間を対象とした社会科学では「同じ個体」を用意できないが「同系統の人間」を用意できる
  • 農事試験場での実験は均一ではないことに気づいたフィッシャーは「ランダム化」によって系統的な偏りを排除した実験を行った
    → 処置群と対照群を比較可能にした

潜在的アウトカム(潜在的結果変数)— potential outcomes

  • ミルの言う「同じ個体」をひとつの個体内に想定
  • 同じ人に対して処置を施した結果・・・Yi(1) 
  • 同じ人に対して処置を施さなかった結果・・・Yi(0)
  • 同じ個体の中に二つの異なる結果 (outcomes) を想定する
    → outcomesの理由

潜在的アウトカムを推奨した人々

Jerzy Neyman (UC Berkeley) 1894-1981

  • 仮説検定など数理統計学の基礎を作った人
  • 農事試験において実験研究を行った

Donald B. Rubin (Harvard University) 1943-

  • Rubin Causal Model (RCM)

  • 潜在アウトカムの考え方を、実験研究から観察研究に拡張した

  • 傾向スコアを導入した

  • 同じ個体で、{Yi(1), Yi(0)}の組を同時には観察できない

  • 同一人物が処置を受けたとすれば、その人が処置を受けなかった時の結果は絶対に観察できない
    → 因果推論における根本問題 (Holland, 1986)
    → 反事実モデル counterfactural model ともいう

  • {Yi(1), Yi(0)}が想定できるものだけを評価対象にする

  • 「操作なくして因果なし 」No causation without manipulation
    出典:PW Holland, 1986, Statistics and causal inference (with discussion)
    Journal of the American Statistical Association, 81, 945-970

因果推論の対象となり得るもの(操作可能かどうかがポイント)

・塾の夏期講習への参加と成績
・選挙ポスターにおける候補者の笑顔と得票率

因果推論の対象となり得ないもの

・月の引力と潮の満ち引き(物理の法則は操作できない)
・発展途上国と先進国での乳児死亡率の違い(国の発展度合いは操作できない)
・性別と給料の差(生まれてしまった人の性別は操作できない)

2. 確率変数はどっち?

  • 人間を対象とした社会科学では「同じ個体」を用意できないが「同系統の人間」を用意できる
  • どのようにして「因果推論の根本問題」を解決するのか?
  • 「同系統の人間」をどのように分析して因果推論するのか?
  • 「ランダム化」によって系統的な偏りを排除した実験を行い、処置群と対照群を比較可能にした
  • その際の、確率変数は \(Y_i({D_i})\)\(D_i\) のどちらなのか?

潜在的アウトカム:\(Y_i({D_i}) = 1 (治癒), = 0(治癒せず)\)

  • \(Y_i({D_i})\) は個体ごとに「治癒した」か 「治癒せず」かのどちらかひとつ
    → 個体 i が「治癒したか」「治癒せず」は確率的ではない
    \(Y_i({D_i})\) は確率的に定められる変数ではない

結論・確率的に定められる変数は \(Y_i({D_i})\) ではなく処置を表す変数 \(D_i\)
\(D_i\) は「どの個体が観測されるのか」を表す変数

  • ここで a + b + c + d 人がいると想定

  • a + b が処置を受けた
  • c + d が処置を受けなかった
  • 処置を受けた人 (a + c) の中で何人が治癒したのかということが確率変数
    → それは二項分布に従う
  • 処置を受けた人 (a + c) の中で何人が治癒したか → a は確率的に変動する
  • 処置を受けた人 (a + c) の中で何人が治癒しなかったか → a は確率的に変動する
    → a + c は確率変数(a + c は実際にデータを観測してみないと分からないから)

処置を定め(Dで場合わけ)→ 潜在的アウトカム Y を観察する場合

  • a + b の中で a が治癒する(=二項分布の実現値)

  • c + d の中で c が治癒する(=二項分布の実現値)

  • これが一般的なデータ解析における基本的な考え方

  • 二つの変数の関連性はピアソンカイ二乗検定を使って検定する

\[\chi^2 = \frac{N(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\]

a+b, c+d は固定
a+c, b+d は確率的変動

潜在的アウトカムを定め(Yで場合わけ)→ 処置 D を割付ける場合

  • 散在的アウトカム (Y) は個体ごとに定まっている
  • \(Y_i({D_i})\) は個体ごとに「治癒した」か 「治癒せず」かのどちらかひとつ
    → 個体 i が「治癒したか」「治癒せず」は確率的ではない
    \(Y_i({D_i})\) は確率的に定められる変数ではない


  • A + B + C + D 人の中で治癒した人 (A + C) はあらかじめ決まっている
  • A + B + C + D 人の中で治癒しなかった人 (B + D) はあらかじめ決まっている
  • A + B + C + D 人の中でどの人を処置に割り付けるか (D = 1)、割り付けないか (D = 0) を決める
  • 治癒した人 (A + C) の中で処置に割り付けられる (A) のが どの人なのかを確率的に決める
  • 治癒した人 (A + C) の中で処置に割り付けられない (C) のが どの人なのかを確率的に決める

個体処置効果の検定方法・・・超幾何分布(フィッシャー検定)

  • \(D\) が確率的な変動
    → A+B, C+D, A+C, B+D は固定されている=既知である  

  • 四分表の周辺度数が既知の場合、セル度数 A は超幾何分布に従う

  • \(α\) は超幾何分布

\[p(α) = \frac{_{(a+b)}C_a・_{(c+d)}C_c}{_{(a+b+c+d)}C_{(a+c)}}\]

  • 帰無仮説:個体処置効果なし

3. 処置のランダム化と処置効果の推定

3.1 SUTVA 条件

  • Stable Unit Treatment Value Assumption (SUTVA)
  • SUTVA 条件は次の二つから構成される
(1) 個体 i の潜在的アウトカム {Yi(1), Yi(0)} は他の個体の受ける処置に依存しない
  • 「相互干渉がない (no interference)」ということ
  • 相互干渉 (interference)とは、各個体の潜在的アウトカムが他の個体に依存してしまうこと
  • SUTVA条件が成り立たない場合を考えてみる
  1. コロナワクチンの効果判定   
  • 自分以外の全ての人々が全員コロナワクチンを接収している場合
  • 自分がコロナワクチンを接種しなくても病気になりにくい
    → 他の個体からの影響を受けてしまう
    → 「相互干渉がない (no interference)」という条件を満たさない
  1. 教育効果の判定   
  • ヤンキー高校に進学したら、まわりの学生が全く勉強していない
  • まわりの学生の影響を受けて、自分も全く勉強しなくなった
    → 他の個体からの影響を受けてしまう
    → 「相互干渉がない (no interference)」という条件を満たさない

(2) 個体 i に対する処置は 1 通り

  • 除外制約 (exclusive restriction) 処置に至る経緯は無関係
  • 除外制約 (exclusive restriction) が成り立たない場合を考えてみる

例)「ダイエットの効果」が意味することを明確にする必要あり

  • 「運動すること」 →「体重」の効果なのか
  • 「炭水化物の制限」 →「体重」の効果なのか

どちらの効果を確認したいのか、処置を一通りに定める必要あり

3.2 処置の割付けと推定結果

\(D_i\) : 個体 i の処置の割付けを表す変数

  • \(D_i = 1: 処置、D_i = 0: 処置なし(対照)\)

\[Y_i = D_iY_i(1) + (1-D_i)Y_i(0)\]

  • \(Y_i\): 実際に観測される値
  • \(Y_i(1)\): 処置ありの場合 (\(D_i = 1\)) には \(Y_i(1)\) が観測される
  • \(Y_i(0)\): 処置なしの場合 (\(D_i = 0\)) には \(Y_i(0)\) が観測される
    ・実際には、 \(Y_i(1)\)\(Y_i(0)\) のどちらかしか私たちは観測できない

\(Y_i\)\(Y_i(1), Y_i(0)\) の違いに注意

  • 観測されるアウトカム \(Y\) を使って処置効果を推定する
  • 観測されるアウトカム \(Y\) の期待値:

\[E[Y|D = 1] = E[Y(1)|D=1]\]

これは、処置の場合(\(D = 1\))に観測される \(Y\) の期待値という意味

\[E[Y|D = 0] = E[Y(0)|D=0]\]

これは、処置なしの場合(\(D = 0\))に観測される \(Y\) の期待値という意味

\(Y\)\(Y(1), Y(0)\) の違いを理解することが重要

3.3 処置の割付を間違えるとどうなるか

  • 実際には、 潜在的アウトカム \(Y_i(1)\)\(Y_i(0)\) のどちらかしか私たちは観測できない
  • ここでは、処置の割付を間違えるとどのようなことが起こるかを調べたい
    → 実際には観測できない潜在的アウトカム \(Y_i(1)\)\(Y_i(0)\)両方を観測できると想定してみる

A. 個体処置効果がない場合

  • 1番から7番は薬を飲んでも飲まなくても治癒した人々
  • 8番から10番は薬を飲んでも飲まなくても治癒しなかった人々
  • 個体処置効果はゼロ →  \(E[Y|D = 1] – E[Y|D = 0] = 0.7 - 0.7 = 0\)

  • 10人は5人ずつ均等に割り振られている
  • しかし、「処置にかかわらず治癒した人々」が多めに割付られている
    → 実際は 0 である個体処置効果を 0.2 と誤って推定
    \(E[Y|D = 1] – E[Y|D = 0] = 0.8 - 0.6 = 0.2\)
  • この値 (0.2) が表しているのは・・・
  • \(D = 1\) の時の \(Y(1)\) の期待値と \(Y(0)\) の期待値の差
    \[E[Y(1)|D=1] - E[Y(0)|D=0]\]
  • これは私たちが知りたい「平均処置効果」\(E[Y(1)]-E[Y(0)]\)ではない

B. 平均処置効果がない場合

  • 1番から4番は薬を飲んでも飲まなくても治癒した人々
  • 5番と6番は薬を飲めば治癒、飲まなければ治癒せず.
  • 平均処置効果はゼロ →  \(E[Y|D = 1] – E[Y|D = 0] = 0.7 - 0.7 = 0\)

  • 10人は5人ずつ均等に割り振られている

  • しかし、不適切に割付られている
    → 実際は 0 である個体処置効果を 0.6 と誤って推定
    \(E[Y|D = 1] – E[Y|D = 0] = 1 - 0.4 = 0.6\)

  • この値 (0.6) が表しているのは・・・

  • \(D = 1\) の時の \(Y(1)\) の期待値と \(Y(0)\) の期待値の差
    \[E[Y(1)|D=1] - E[Y(0)|D=0]\]

  • これは私たちが知りたい「平均処置効果」\(E[Y(1)]-E[Y(0)]\)ではない

  • 「観測される値の期待値の差」「平均処置効果」ではない

\[E[Y|D = 1] – E[Y|D = 0] ≠ E[Y(1)] − E[Y(0)]\]

まとめ\(E[Y|D = 1] – E[Y|D = 0]\):「観測されるアウトカムの期待値の差」

\(E[Y(1)] − E[Y(0)]\):     私たちが知りたい「平均処置効果」

→ 両者は同じではない.

解決策:

  • 平均処置効果を偏りなく推定するためには、処置の割付けに何らかの条件を課する必要あり

3.4 処置のランダム割付

  • 統計的因果推論では処置を「受けた場合」と「受けない場合」でのアウトカムの差に注目する
    → 各個体が処置を受ける可能性も処置を受けない可能性も両方あることが前提
  • これを単婦するのが識別性 (Identifiability)
  • 識別性 = 推定可能性 (estimable condition)
  • 識別性 = 正値性+独立性

(1) 割付確率の「正値性」

  • 割付の確率に関する仮定: \(0 < P(D=1) < 1\)
  • 処置が割り付けられる確率は「0よりも大きく、1よりも小さい」
    (「0以上、1以下」 ではないことに注意)
その理由:
  • 処置を受ける確率 \(P(D=1)\) が 0 か 1 だと、比較できない
  • \(P(D=1) = 0\) → 絶対に処置を受けない
  • \(P(D=1) = 1\) → 絶対に処置を受ける
  • 私たちがしたいこと:処置を「受けた場合」と「受けなかった場合」の比較
    →「処置のみ」もしくは「対照のみ」の個体だけしかないと、比較できない

(2) 割付の「独立性」

  • 割付変数 \(D\) は潜在的変数とは無関係である(独立して決められる)

{Y(1), Y(0)} ⊥ D

  • 処置の割付がランダム
    ・例)サイコロを振って割付を決めれば → 割付変数 \(D\) は全ての変量と独立
  • 潜在的な結果 {Y(1), Y(0)} からも独立

具体的なデータを使った解説

  • 推定したい平均処置効果:\(\delta = E[Y(1)]-E(Y(0)] = 0.6-0.4 = 0.2\)

ランダムに処置を割り振ってみる

  • 実際に観測した \(E[Y|D=1] - E[Y|D=0] = 0.6-0.4 = 0.2\)

  • 私たちが推定したいと思っている平均処置効果 \(\delta = 0.2\) を正しく推定している

  • 推定したい平均処置効果:\(\delta = E[Y(1)]-E(Y(0)] = 0.6-0.4 = 0.2\)

いい加減に処置を割り振ってみる

  • 実際に観測した \(E[Y|D=1] - E[Y|D=0] = 0.8-0.2 = 0.6\)
  • 私たちが推定したいと思っている平均処置効果 \(\delta = 0.2\) を正しく推定できていない

3.5 フォーマルな表現(処置のランダム割付)

  • 観測値 \(Y = DY(1) + (1-D)Y(0)\) に対して、
  • \(D=1\) の時に観測される \(Y\) の期待値は \(D=1\)\(Y(1)\) の平均(=期待値)

\[E[Y|D=1] = E[Y(1)|D=1]\]

  • \(D=0\) の時に観測される \(Y\) の期待値は \(D=0\)\(Y(0)\) の平均(=期待値)

\[E[Y|D=0] = E[Y(0)|D=0]\]

  • \(Y\), \(Y(0)\), \(Y(1)\) は観測できる
    → 計算できる

  • しかし、私たちが知りたいのは観測できない \(E[Y(1)]\)\(E[Y(0)]\)
    = 「全員が処置を受けた場合の期待値」と「全員が処置を受けない場合の期待値」

  • 上の図の「観測できる左側2つの式」と「観測できない右端の式」をイコールで結ぶための条件: 独立性の条件

独立性の条件(= A と B が独立である条件)・B が与えられた時の A の確率は A の確率に等しい

\[P(A|B) = P(A)\]

・B が与えられた時の A の期待値は A の期待値に等しい

\[E[A|B] = E[A]\]

実例を使った解説:

統計的独立性
・ランダムにシャッフルされた52枚のトランプから一枚カードを引いて、それがエースである確率

非復元抽出の場合

・起こりうるアウトカム(=標本空間)は52通り
・カードには4枚のエースが含まれているので、一枚のカードがエースである確率は 0.077

\[Pr(エース) = \frac{エースの数}{標本空間} = \frac{4}{52} = 0.077\]
・1枚目に引いたカードがエースだとする
・2枚目に引くカードがエースである確率は

\[Pr(エース|1枚目のカードがエース) = \frac{3}{51} = 0.059\]

・非復元抽出の場合、次の二つの事象は独立ではない:
・1枚目に引いたカードがエース
・2枚目に引くカードがエース
・2つの事象が独立であるためには、1枚目に引いたエースをトランプに戻して、再度シャッフル(=復元抽出)する必要がある
・事象 A と事象 B が独立であるのは次の場合のみ

\[Pr(A|B) = Pr(A)\]

  • 潜在的アウトカム {Y(1), Y(0)} と割付変数 \(D\) の間でこの独立性の条件が満たされれば
    → 次の式が成り立つ

  • 観測できる「処置と対照ごとの \(Y\) の期待値」を使って
    観測できない「全員の \(Y(1), Y(0)\) の期待値」を推定できる

  • 観測できる \(E[Y|D=1] - E[Y|D=0]\) を使って
    観察できない「平均処置効果 \(\delta = E[Y(1) - E[Y(0)]\)」を推定できる

どの変数が「独立」なのかに注意 ・上で「潜在的アウトカム {Y(1), Y(0)} と割付変数 \(D\) の間でこの独立性の条件が満たされれば 」と書いたが、どの変数とどの変数が独立なのかに注意が必要

「潜在的アウトカム {Y(1), Y(0)} と割付変数 \(D\) が独立」の場合:

→ 処置効果を偏りなく推定できる

「観測変数 \(Y\) と割付変数 \(D\) が独立」の場合:

(つまり、\(E[Y|D=1] = E[Y|D=0]\) なら)→ 処置には効果がない
・D が 1 の時の Y の期待値と、D が 1 の時の Y の期待値が等しくなるから

・「観測変数 \(Y\) と割付変数 \(D\) が独立でない」場合:
(つまり、 \(E[Y|D=1] ≠ E[Y|D=0]\) なら)
・D が 1 の時の Y の期待値と、D が 1 の時の Y の期待値が異なるから
・D ごとに Y の値が異なる
→ 処置には効果がある

4. 共変量と識別性(推定可能性)

  • 実際のデータ解析では「処置」と「アウトカム」意外に様々な変量(=変数)がある

  • 共変量 (covariate) \(X\) :

  • 処置の割り付け以前に観測される変量

  • 処置の影響を受けない変量のこと

4.1 識別可能条件

  • 共変量がある場合、処置効果の推定可能性が成立するためには2つの条件が必要

A: 条件付き正値性: 0 < P(D=1|X) < 1

  • 共変量 \(X\) が与えられた時に、処置が割り付けられる確率は「0よりも大きく、1よりも小さい」
    (「0以上、1以下」 ではないことに注意)

  • すべての \(X\) に対して成り立つ必要がある → かなり強い条件

B: 条件付き独立性:{Y(1), Y(0)} ⊥ |X

  • 共変量 \(X\) が与えられた時に、潜在的アウトカム {Y(1), Y(0)} と割り付け変数 \(D\) が独立である

  • 無交絡性 = 条件付き交換可能性

  • 処置の割り付けに影響を与えるのは \(X\) のみ

  • \(X\) 意外に割り付けに影響を与える変数はないという仮定

\[A + B = 強い意味での無視可能な割り付け\]

  • Strongly ignorable treatment assignment

4.2 処置効果の推定法

条件付き独立: \(A⊥B|C\)

\[A⊥B|C => P(A|B, C) = P(A|C)\]

  • \(C\) という条件があったときに、\(A\)\(B\) が独立
  • \(B\)\(C\) が与えられた時の確率は \(B\) とは無関係 → \(C\) だけが与えられた時の確率と等しい

観測可能量 \(Y\):

  • D = 1 なら Y(1) が観測され、D = 0 なら Y(0) が観測される Y に関して、私たちは観測可能量しか観測できない

\[観測可能量 Y = DY(1) + (1-D)Y(0)に対して\]

  • X という共変量が与えられた時に、処置 (D=1) における観測可能量 Y の期待値をもとめる

\[E[Y|D=1, X] = E[Y(1)|D=1, X] = E[Y(1)|X]\]

  • X という共変量が与えられた時に、処置 (D=0) における観測可能量 Y の期待値をもとめる

\[E[Y|D=0, X] = E[Y(0)|D=0, X] = E[Y(0)|X]\].

  • ここで条件付き独立性が成立するなら(つまり、\(A⊥B|C => P(A|B, C) = P(A|C)\)なら)
    → \(B\)\(C\) が与えられた時の確率は \(B\) とは無関係 → \(C\) が与えられていれば、\(B\) は関係ない
    → \(X\) が与えられた時の、\(D=1\)\(D=0\) の場合の期待値の差は\(X\) が与えられた時の、\(Y(1)\) の期待値と \(Y(0)\) の期待値の差」に等しい → これが私たちが推定したいこと

\[E[Y|D=1, X] - E[Y(1)|D=0, X] = E[Y(1)|X]-E[(Y0)|X]\]

  • \(X\) の分布で期待値をとる

  • \(X\) が与えられたもとでの \(Y\) の期待値を求める式では、\(X\) の部分が消える

\[E_X[E[Y|D=1, X] - E[Y|D=0, X]] \\ = E_X[E[Y(1)|X] - E[Y(0)|X]] \\ = E[Y(1)] - E[Y(0)] = \sigma\]

  • 条件付き期待値の条件によって期待値をとるという操作 = 条件をなくすこと
    → 私たちが求めたい処置効果 \(\sigma\) を求めることができる

4.3 標準化法 (Standardization)

  • 条件付き独立 {Y(1), Y(0)⊥D|X} を仮定
  • 私たちが推定したい対象 \(\delta = E[Y(1)]-E[Y(0)]\)
Step 1: X の値で条件をつけて(=層別し)
Step 2: X の値で条件で期待値をとる(=加重平均を求める)
  • Y(1) の期待値 \(E[Y(1)]\) を求めてみる
    A: X で条件を付けた時の \(Y(1)\) の期待値: \(E[Y(1)|X=x]\)
    B: X がそういう条件になる確率:\(P(X=x)\)
    A と B をかけあわせ、X に関してその総和をとる
  • 観測できない潜在的アウトカム \(Y(1)\) を、観測可能な結果 \(Y\) で置き換えることができる

\[E[Y(1)] = \sum_{x}E[Y(1)|X=x]P(X=x)\\ = \sum_{x}E[Y(1)|D=1, X=x]P(X=x)\\ = \sum_{x}E[Y|D=1, X=x]P(X=x)\\\]

→ Y(1) の期待値 \(E[Y(1)]\) は観測可能量(共変量 \(X\) と観察された結果 \(Y\))によって推定できる

  • 同様のことが Y(0) の期待値 \(E[Y(0)]\) でもあてはまる
    C: X で条件を付けた時の \(Y(0)\) の期待値: \(E[Y(0)|X=x]\)
    D: X がそういう条件になる確率:\(P(X=x)\)
    C と D をかけあわせ、X に関してその総和をとる
  • 観測できない潜在的アウトカム \(Y(0)\) を、観測可能な結果 \(Y\) で置き換えることができる

\[E[Y(0)] = \sum_{x}E[Y(0)|X=x]P(X=x)\\ = \sum_{x}E[Y(0)|D=0, X=x]P(X=x)\\ = \sum_{x}E[Y|D=0, X=x]P(X=x)\\\]

→ Y(0) の期待値 \(E[Y(0)]\) は観測可能量(共変量 \(X\) と観察された結果 \(Y\))によって推定できる

5. セレクションバイアスとは

  • セレクションバイアス (Selection Bias) の定義:

  • 「原因として考えている変数(処置変数)と結果変数の関係が、想定する因果関係以外に存在する状況」

  • 「処置の値」と「潜在的結果」の間に相関があるということ
    = 「処置を受けた群」と「受けていない群」で、結果のベースラインに違いがある
    = 例えば「通院する人」(処置を受けた群)と「通院しない人」(処置を受けない群)では、もともとの健康状態に違いがある
    → もともと健康状態が良い人は通院しない
    → もともと健康状態が悪い人が通院する

セレクションバイアスの問題点・ 調査・観察データを使った単純比較では、多くの場合、セレクションバイアスのせいで因果効果は特定できない

→ セレクションバイアスへの対処が、因果推論にとって最大の課題

セレクションバイアスの種類

  • 次の二種類あるが、ここでは (2) の「セルフセレクション」について解説する
(1) サンプルセレクション 母集団からかけ離れたサンプルをとること
(2) セルフセレクション 個人が自らの意思に行動を選択した結果、ある行動を取る人たちのグループと取らない人たちのグループの間で特性の差が生じる
  • サンプルセレクションの例:

  • 知りたいこと:早稲田大学政経学部全ての学生の統計学の知識

  • 母集団:早稲田大学政治経済学部の全ての学生

  • サンプル:「計量分析(政治)」を履修している学生
    → 「計量分析(政治)」を履修する学生はもともと計量分析に興味がある
    → このサンプルは母集団からかけ離れたサンプルである可能性が高い

対策:調査対象の選定に注意して、早稲田大学政経学部全ての学生から無作為にサンプルをとる

6. セルフセレクション

6.1 事例 1: シンプソンのパラドクス

  • シンプソンのパラドクスとは、全体でみた解釈と部分で見た解釈が異なるという現象

  • 確認したいこと:「運動する」→「コレステロールが下がる」

  • x 軸に「運動量」、y 軸に「コレステロール値」をとってプロットしてみる


Source: Judea Pearl and others, 2016, Causal Inferences in Statistics

  • データからわかる事実:

→ 運動量が多い人ほどコレステロール値が高い!
→ 常識と反する結果!
- ここで確かめたい因果関係は「運動する」→「コレステロール値が上がる(下がる)?」
- 「想定する因果関係以外の変数」として「年代」を考える
- 上のグラフを年代別に分けて表示してみる


Source: Judea Pearl and others, 2016, Causal Inferences in Statistics

  • データからわかる事実:

  • 年代別に「運動量」と「コレステロール値」の関係を見ると負の相関がある

  • 年代別に見ると「運動する」→ 「コレステロール値が下がる」関係がある

  • 若い人はもともとコレステロール値が低い人が多い

  • 年を経るにつれてコレステロール値が高くなる
    →「年代」を考慮しないと「運動する」と「コレステロール値が上がる」ように見える

  • 「運動をするかどうか」という判断は個人の判断
    => セルフセレクション (self-selection)

  • 3 つの変数(年齢、運動、コレステロール値)の関係を図示してみる

結論・全体で見ると、運動するとコレステロール値は上がる
・しかし、年代別に見ると、運動するほどコレステロール値は下がる
・「年代」のようなセレクションバイアスを考慮する必要がある

6.2 事例 2: 病院に行く人ほど不健康になる?

  • 確認したいこと:「病院行く」→「健康になる」
  • 「通院(病院に行ったこと)」と「健康状態」の関係

  • データからわかる事実:

  • 通院しなかった人の方が健康(健康状態の平均値: 3.21 < 3.93
    → 常識と反する結果!

  • なぜ通院すると健康でなくなるのか?

  • これは因果関係なのか?

  • ここで想定する因果関係は「通院する」→「健康になる」

  • なぜ通院すると不健康になるのか?

【考えられる理由】:
(1) 病人から病気が感染してしまう
(2) 医療ミスのせいで健康を害する・・・等々

  • 「想定する因果関係以外の変数」として「そもそもどういう人が通院するのか」を考える
  • 「通院するかどうか」ということは本人が選べる
    => セルフセレクション (self-selection)
    → 「病院に行く」のは「もともと健康状態が悪い人」
    → もともと健康状態の良い人は「病院には行かない」はず

結論・ 病院に行ったからといって不健康になるわけではない
・ 「もともとの健康状態」を考慮すべき

まとめ調査・観察データを単純比較しても因果効果はわからない

その理由 → セレクションバイアスがあるから

・ セレクションバイアスがあると正しい因果効果が推定できない

7. ルービンの潜在的結果アプローチ

  • Rubin の潜在的結果アップローチを使って、セレクションバイアスへの理解を深めフォーマルに定義する 
  • ここでは「事例 2: 病院に行く人ほど不健康になる?」を使って、実例と照らし合わせつつ解説する
  • 「もし・・・なら」と考える条件は 2 つ:
通院しない
通院する

→ このことを変数 D で表す
→ 変数 D は「処置 (treatment) 」 と呼ばれる
→ D= 0なら「通院しない」
→ D= 1なら「通院する」

  • 効果検証を表す指標は「健康状態(5 段階)」
(1) 最悪
(2) 悪い
(3) 普通
(4) 良い
(5) 最良
  • 潜在的結果変数は Y(0)Y(1)
\(Y(1)\) : その人が通院したときの、健康状況
\(Y(0)\) : その人が通院しないときの、健康状況
  • ここでは反事仮想の考え方(もし・・・だったら)を利用する
    ・ 通院した人 (D = 1) についての \(Y(1)\) は観測できる
    ・ 通院した人 (D = 0) についての \(Y(0)\) は観測できない
    → 現実に通院した人が「通院しなかった時の健康状態」は観測できないから
    同様に
    ・ 通院しない人 (D = 0) についての \(Y(0)\) は観測できる
    ・ 通院しない人 (D = 0) についての \(Y(1)\) は観測できない
    → 現実に通院しない人が「通院した時の健康状態」は観測できないから

\(Y(0)\)\(Y(1)\) は同時には観察(= 測定)できない

  • 同じ人に「本来はどちらの潜在的結果変数も存在する」と発想
    → 「もし・・・していたら」と「もし・・・していなかったら」の比較が可能になる

7.1 記号と用語の説明

個人 : i = 1, 2, 3,…, N・・・個体を表す ID
処置 (treatment) : \(D_i ∈ {0, 1}\)・・・原因となる変数
処置を受けた(通院する):\(D_i = 1\)
処置を受けない(通院しない):\(D_i = 0\)
結果 (outcome) : \(Y_i ∈ {1, 2, 3, 4, 5}\)・・・5 段階の健康状態
潜在的結果 (potential outcome) :

\[ Y_{i}\left(D_{i}\right)=\left\{\begin{array}{ll} Y_{i}(1) &\text { if } D_{i}=1(ここでは「通院する」)\\ Y_{i}(0) & \text { if } D_{i}=0(ここでは「通院しない」)\end{array}\right. \]

  • 潜在的結果
  • 1 つの行動に対して、1 つの潜在的結果がある 
  • \(Y_i(0)\)\(Y_i(1)\) は潜在的には存在しうるが、D の値によって観測できるものが異なる
     → 潜在的結果変数 (potential outcomes)
  • 「通院する・しない」の例では次の 2 つの可能な行動とそれぞれ 5 段階の結果を想定できる

  • 処置した(\(D_i = 1\) = 通院する)場合の潜在的結果(5 段階の健康状態)
  • 処置しない(\(D_i = 0\) = 通院しない)場合の潜在的結果(5 段階の健康状態)
  • 処置と潜在的結果
  • \(Y_i(D_i)\)・・・処置が \(D_i\) の場合(通院する or 通院しない)の潜在的結果(健康状態) \[Y_i(D_i) = Y_i(1). if. D_i = 1\] \[Y_i(D_i) = Y_i(0). if. D_i = 0\]
  • どちらも実際に観察可能
  • 観察される結果 \(Y_i\) (健康状態)は、二つの可能な行動 \(D_i\)(通院する = 1、通院しない = 0) の確率の関数なので、\(Y_i\) は次のように表記できる

\[Y_i = D_iY_i(1) + (1-D_i)Y_i(0)\\= Y_i(0) + [Y_i(1) - Y_i(0)]D_i\] \(D_i = 0\) の時 \[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i = Y_i(0)\] \(D_i = 1\) の時 \[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i = Y_i(1)\]

7.2 処置効果

  • 個体iの潜在的アウトカム {Yi(1), Yi(0)}
  • 処置変数 :\(D_i = 1\)(薬を服用), \(D_i = 0\)(薬を服用せず)
  • アウトカム:\(Y_i(D_i) = 1\)(治癒), \(Y_i(D_i) = 0\)(治癒せず)
\(Y_i(1) = 1, Y_i(0) = 1\) 効果なし \(Y_i(1) - Y_i(0) = 0\) 薬を服用してもしなくても治癒
\(Y_i(1) = 1, Y_i(0) = 0\) 効果あり \(Y_i(1) - Y_i(0) = 1\) 薬を服用すると治癒
\(Y_i(1) = 0, Y_i(0) = 1\) 効果あり \(Y_i(1) - Y_i(0) = -1\) 薬を服用しないと治癒
\(Y_i(1) = 0, Y_i(0) = 0\) 効果なし \(Y_i(1) - Y_i(0) = 0\) 薬を服用してもしなくても治癒せず

処置効果の定義

個体 \(i\) の個体処置効果 (Individual Treatment Effect: ITE)

\[σ_i = Y_i(1) - Y_i(0)\]

  • \(Y_i(1) - Y_i(0) (σ=0)\) なら、個体 \(i\) にとって、処置は効果なし
  • 観測も推定もできない

母集団での平均処置効果 (Average Treatment Effect: ATE)

\[σ = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)]\]

  • \(E[Y(1) - Y(0)]\):母集団における全ての個体の処置効果の期待値

  • \(E[Y(1)]\):母集団の全ての個体に処置を施したときの期待値

  • \(E[Y(0)]\):母集団の全ての個体が処置を受けなかったときの期待値

  • 母集団の全ての個体が「処置を受け」かつ「処置を受けない」(=対象となる)ことはできないはず・・・
    → しかし、これは工夫によって可能になる

  • 因果推論を実現するために、私たちが知っておくべき「処置効果」は次のとおり

  • 私たちが最終的に知りたいのは「群間の因果効果」である「平均処置効果 ATE   

処置効果の種類 略称
1. 個体処理効果 ITE: individual treatment effect
2. 平均処置効果 ATE: average treatment effect
3. 処置群における平均処置効果 ATT: average treatment effect for the treated
4. 統制群における平均処置効果 ACT: average treatment effect for the control

・ ランダム化比較実験 (RandomiDed Controlled Trial: RCT) によって、ランダムに(無作為に)処置群と統制群が決まる場合
→ 2 群の期待値を単純比較すれば「平均処置効果 ATEを計算できる
・ しかしほとんどの「調査・観察データ」にはセレクションバイアスが含まれている
→ 単純比較するだけでは「平均処置効果 ATEを計算できない

7.2.1 個体処置効果 (ITE)

  • 個体処置効果 \(δ_i\): ITE (individual treatment effect)

  • 個人レベルの処置効果(因果効果)

  • 個体 \(i\) に関する因果効果 \(δ_i\)(デルタ)は「潜在的結果の差」を表す

\[δ_i ≡ Y_i(1) - Yi(0)\]

  • 通院の事例を使うと、同一人物が「通院した場合の健康状況 \(Y_i(1)\)」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差のこと

  • 因果効果は同一個体の同一時点での「潜在的結果の差」によって定義される

  • 観察される結果 \(Y_i\) は、二つの可能な行動 \(D_i\) の確率の関数なので、次のように表記できた

\[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i\]

  • この式に \(δ_i ≡ Y_i(1) - Yi(0)\) を代入する

\[Y_i = Y_i(0) + [Y_i(1) - Y_i(0)]D_i\\ = Y_i(0) + δ_i(D_i)\]

\(Y_i(0)\) : 結果のベースライン(5 段階の健康状態)
\(δ_i\) : 因果効果
\(D_i\) : 処置の有無: \(D_i = 1\)なら通院、\(D_i = 0\)なら通院しない

「潜在的結果の差」\(δ_i ≡ Y_i(1) - Yi(0)\)  

  • 通院の事例を使うと、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がゼロ (\(δ_i = 0 )\) なら、通院と健康状態の間には「因果効果なし」

  • 他方、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がプラス (\(δ_i > 0 )\) なら「通院は健康状態を改善させるという因果効果がある」

  • また、同一人物が「通院した場合の健康状況 \(Y_i(1)\) 」 と「通院しなかった場合の健康状況 \(Y_i(0)\)」の差がマイナス  (\(δ_i < 0 )\) なら「通院は健康状態を悪化させるという因果効果がある」

  • しかし、例えば2021年4月の一ヶ月間の間、菅総理大臣が毎週月曜日に東大病院に「通院する」ことと「通院しない」ことを同時に観察することはできない

  • 菅総理が経験し観察できるのは「通院する」か「通院しないか」のどちらか片方だけ
    → つまり、

2 つの潜在的結果である \(Y_i(1) と Y_i(0)\) は同時に観察することはできない

→ 因果推論の根本問題 (Holland 1986)

  • 因果推論の根本問題
処置 潜在的結果 潜在的結果
\(Yi(1)\) \(Yi(0)\)
あり \(D_i = 1\) \(Y_i\) として観察される 観察できない
なし \(D_i = 0\) 観察できない \(Y_i\) として観察される

個体の因果効果は観察できない!

→ 個人の因果効果は観察できないので諦める

  • しかし、複数の個体(=集団)を考慮すると因果効果は観察できる
観察対象 潜在的結果 \(Y_i(1)\) 潜在的結果 \(Y_i(0)\) 個体レベルの因果効果 \(δ\)
1 \(Y_1(1)\) \(Y_1(0)\) \(Y_1(1)-Y_1(0)\)
2 \(Y_2(1)\) \(Y_2(0)\) \(Y_2(1)-Y_2(0)\)
3 \(Y_3(1)\) \(Y_3(0)\) \(Y_3(1)-Y_3(0)\)
. . . .
. . . .
\(i\) \(Y_i(1)\) \(Y_i(0)\) \(Y_i(1)-Y_i(0)\)
. . . .
. . . .
\(N\) \(Y_N(1)\) \(Y_N(0)\) \(Y_N(1)-Y_N(0)\)

・ 個体レベルの ITE(個体処置効果 \(δ_i\)) は観察できないが、集団の平均なら観察できる

7.2.2 平均処置効果 (ATE)

  • 平均処置効果 \(δ_i\): ATE (average treatment effect)
  • 観察できる集団の平均を使って「平均処置効果 (ATE)」を計算する

\[ATE = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)]\]
\(E[Y(1)]\): 全ての個体が処置 1 を受けたとき(= 通院する)の結果の期待値
\(E[Y(0)]\): 全ての個体が処置 0 を受けたとき(= 通院しない)の結果の期待値

  • 処置群と統制群

  • 処置の値が 2 つ (0 or 1) しかないとき
    → 処置 1 を受ける =「処置を受ける」= 「通院する」
    処置を受けた個体のグループ:処置群(実験群)
    → 処置 0 を受ける =「処置を受けない」=「通院しない」
      処置を受けない個体のグループ:統制群(比較群)

  • 平均処置効果 (ATE) は観察可能? →  NO!

\[ATE = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)]\]

  • 全ての個体が処置 1 を受けたとき(= 全員が通院する) → \(E[Y(1)]\) は観察可能
  • 全ての個体が処置 0 を受けたとき(= 全員が通院しない)→ \(E[Y(0)]\) は観察可能
  • しかし、私たちが知りたい「通院の因果効果」(= 「期待値の差」)を計算するためには「通院する」人々と「通院しない」人々が混じった集団が必要
  • 「通院する」人々と「通院しない」人々の両方が混じった集団だと、期待値 \(E[Y(1)]\)\(E[Y(0)]\) はどちらも計算できない

→ 私たちが知りたい「期待値の差」は計算できない

\[平均処置効果 (ATE) は観察できない\]

7.2.3 平均処置効果 (ATTATC)

  • 「観察したいこと」と「観察できること」
  • 通院することの因果効果を知りたい時、私たちが「観察したいこと」と実際に「観察できること」は次のように表すことができる

  • 私たちが観察できることは 2 つだけ (\(E[Y_i(1) |D = 1] と E[Y_i(0) |D = 0]\) )
  • つまり「通院する集団」と「通院しない集団」の体調の平均値の差
  • これら観察できる 2 つの体調の平均値の差を単純比較してみる \[E[Y_i(1) | D = 1] ー E[Y_i(0) | D = 0]\]
  • ここでわかること
     →「通院した集団」と「通院しなかった集団」における体調の平均値の差
  • しかし、この平均値の差には二種類のセレクションバイアスが含まれている 
  • 「通院する集団」に含まれているバイアス
  • 「そもそも通院するのは、もともと体調が悪い人々」
     → 通院する集団の中では、通院の効果が過小評価される
  • 「通院しない集団」に含まれているバイアス
  • 「もともと体調が良い人々は、そもそも通院しない」
     → 通院しない集団の中では、通院の効果が過大評価される
  • 以上を図にまとめると次のようになる

  • ここからわかること
    「通院する集団」に関して
  • もしセレクションバイアスの値が 0 なら → ATT を計算できる
    「通院しない集団」に関して
  • もしセレクションバイアスの値が 0 なら →  ATC を計算できる
  • もし「通院する集団」と「通院しない集団」のセレクションバイアスの値がどちらも 0 なら

→ 群間比較で因果効果 (ATE) を推定できる

7.3 フォーマルな表現

7.3.1 ATT(処置群における平均処置効果)

  • ここでは、上で説明した ATT とセレクションバイアスの関係をフォーマルに表してみる
  • 観察可能な 2 つの期待値 (\(𝐸[𝑌(1)|𝐷=1]と𝐸[𝑌(0)|𝐷=0]\) )の差を表す式を展開してみる
  • 以下が式の解説である

  • セレクションバイアスをフォーマルに表すと次のようになる \[E[Y_i(0)|D=1] - E[Y_i(0)|D=0]\] → 通院する人もしない人も (つまり D=0 であれば)「もともとの健康状態が同じ」なら
    → セレクションバイアスは消える \[E[Y_i(0)|D=1] = E[Y_i(0)|D=0] ならば\] → セレクションバイアスは消える → その場合、ATE は推定できないが、ATT が推定できる

7.3.2 ATC(統制群における平均処置効果)

  • ここでは、上で説明した ATC とセレクションバイアスの関係をフォーマルに表してみる
  • 観察可能な 2 つの期待値 (\(𝐸[𝑌(1)|𝐷=1]と𝐸[𝑌(0)|𝐷=0]\) )の差を表す式を展開してみる
  • 以下が式の解説である

  • セレクションバイアスをフォーマルに表すと次のようになる \[E[Y_i(1)|D=1] - E[Y_i(1)|D=0]\] → 通院する人もしない人も (つまり D=0 であれば)「もともとの健康状態が同じ」なら
    → セレクションバイアスは消える \[E[Y_i(1)|D=1] = E[Y_i(1)|D=0] ならば\] → セレクションバイアスは消える → その場合、ATE は推定できないが、ATC が推定できる

7.3.3 ATE(平均処置効果)が計算できる条件  

  • 処置群と統制群それぞれの集団に関して、2つのセレクションバイアスを両方除去できる
    → 処置群における平均処置効果 (ATT) と統制群における平均処置効果 (ATC) が計算できる
    → 平均処置効果 (ATE) が計算できる
    \[E[Y_i(0)|D_i=1] = E[Y_i(0)|D_i=0]   →  ATT が計算可能\\ E[Y_i(1)|D_i=1] = E[Y_i(1)|D_i=0]   →  ATC が計算可能\\ → ATE が計算可能\]
  • 通院と体調の事例にあてはめてみる
  • 「通院する集団」のセレクションバイアス:
    もともと体調が悪い人々なので、この集団では通院の効果が過小評価される
  • 「通院しない集団」のセレクションバイアス:
    もともと体調の良い人々なので、この集団では通院の効果が過大評価される
  • 「通院する集団」「通院しない集団」それぞれのセレクションバイアスを両方除去できる
     →「通院する集団」における ATT「通院しない集団」における ATC が計算できる
     →通院の因果効果 ATE を計算できる
  • このことをフォーマルにまとめると次のようになる

参考文献