1. 潜在結果アウトカム (potential outcomes)

潜在結果アウトカムの基本的な考え

  • 英国の哲学者ジョン・スチュアート・ミルの因果関係に関する考え

「因果関係の確立のためには、同じ固体に対し、処置を施した場合と施さなかった場合での結果を観察し、結果が異なるのであれば、処置効果があったといえるであろう」(出典:ジョン・スチュアート・ミル著書『論理学体系』)


John Stuart Mill (1806-1873)

  • ここでの問題:「同じ個体」は得られるのか?
  • 化学実験であれば、「同じ個体」は用意できる
  • 生物学における動物実験であれば「同系統のマウス」を用意可能
  • 人間を対象とした社会科学では「同じ個体」を用意できないが「同系統の人間」を用意できる
  • 農事試験場での実験は均一ではないことに気づいたフィッシャーは「ランダム化」によって系統的な偏りを排除した実験を行った
    → 処置群と対照群を比較可能にした

潜在的アウトカム(潜在的結果変数)— potential outcomes

  • ミルの言う「同じ個体」をひとつの個体内に想定
  • 同じ人に対して処置を施した結果・・・Yi(1) 
  • 同じ人に対して処置を施さなかった結果・・・Yi(0)
  • 同じ個体の中に二つの異なる結果 (outcomes) を想定する
    → outcomesの理由

潜在的アウトカムを推奨した人々

Jerzy Neyman (UC Berkeley) 1894-1981

  • 仮説検定など数理統計学の基礎を作った人
  • 農事試験において実験研究を行った

Donald B. Rubin (Harvard University) 1943-

  • Rubin Causal Model (RCM)

  • 潜在アウトカムの考え方を、実験研究から観察研究に拡張した

  • 傾向スコアを導入した

  • 同じ個体で、{Yi(1), Yi(0)}の組を同時には観察できない

  • 同一人物が処置を受けたとすれば、その人が処置を受けなかった時の結果は絶対に観察できない
    → 因果推論における根本問題 (Holland, 1986)
    → 反事実モデル counterfactural model ともいう

  • {Yi(1), Yi(0)}が想定できるものだけを評価対象にする

  • 「操作なくして因果なし 」No causation without manipulation
    出典:PW Holland, 1986, Statistics and causal inference (with discussion)
    Journal of the American Statistical Association, 81, 945-970

因果推論の対象となり得るもの(操作可能かどうかがポイント)

・塾の夏期講習への参加と成績
・選挙ポスターにおける候補者の笑顔と得票率

因果推論の対象となり得ないもの

・月の引力と潮の満ち引き(物理の法則は操作できない)
・発展途上国と先進国での乳児死亡率の違い(国の発展度合いは操作できない)
・性別と給料の差(生まれてしまった人の性別は操作できない)

2. 確率変数はどっち?

  • 人間を対象とした社会科学では「同じ個体」を用意できないが「同系統の人間」を用意できる
  • どのようにして「因果推論の根本問題」を解決するのか?
  • 「同系統の人間」をどのように分析して因果推論するのか?
  • 「ランダム化」によって系統的な偏りを排除した実験を行い、処置群と対照群を比較可能にした
  • その際の、確率変数は \(Y_i({D_i})\)\(D_i\) のどちらなのか?

潜在的アウトカム:\(Y_i({D_i}) = 1 (治癒), = 0(治癒せず)\)

  • \(Y_i({D_i})\) は個体ごとに「治癒した」か 「治癒せず」かのどちらかひとつ
    → 個体 i が「治癒したか」「治癒せず」は確率的ではない
    \(Y_i({D_i})\) は確率的に定められる変数ではない

結論・確率的に定められる変数は \(Y_i({D_i})\) ではなく処置を表す変数 \(D_i\)
\(D_i\) は「どの個体が観測されるのか」を表す変数

  • ここで a + b + c + d 人がいると想定

  • a + b が処置を受けた
  • c + d が処置を受けなかった
  • 処置を受けた人 (a + c) の中で何人が治癒したのかということが確率変数
    → それは二項分布に従う
  • 処置を受けた人 (a + c) の中で何人が治癒したか → a は確率的に変動する
  • 処置を受けた人 (a + c) の中で何人が治癒しなかったか → a は確率的に変動する
    → a + c は確率変数(a + c は実際にデータを観測してみないと分からないから)

処置を定め(Dで場合わけ)→ 潜在的アウトカム Y を観察する場合