このセクションで理解すること✔「回帰関数」とは「説明変数で条件付けた結果変数 𝑌 の条件付き期待値」
✔ 観測値・予測値・残差の関係
✔ 回帰係数と因果効果の関係
✔ 重回帰分析で因果効果(平均処置効果: ATE)を推定する条件

1. 記号の設定

  • 個体 \(i = 1, 2, 3,..., N\)
  • 結果変数(応答変数):\(Y_i\)
  • 処置変数(説明変数):\(D_i\)
  • 処置変数以外の説明変数: \(X_{1i}, X_{2i}, X_{3i},...,X_{ki}\)
    →この変数は「コントロール変数」「共変量」とも呼ばれる
  • ここで知りたいこと・・・\(D\)\(Y\) に与える因果効果

2. 期待値 (expectation)

2.1 「連続型」と「離散型」確率変数の期待値

  • \(Y_i\)連続型確率変数で確率密度が \(f(y)\) で表されるとき、\(Y\) の期待値 \(E[Yi]\)

\[E[Y_i] = \int_{-∞}^{∞} yf(y)~dx\]

  • \(y\) がとりうる範囲全てにおいて積分することで求められる

  • \(Y_i\)離散型確率変数のとき、\(Y\) の期待値 \(E[Yi]\)

\[E[Y_i] = \sum_y yPr(Y_i = y)\]
- 離散型確率変数の時は積分ではなく、をとる

2.2 条件付き期待値

  • \(X_i\) という変数の値が \(x\) の時、\(Y_i\) がとりうる値
    → \(X_i = x\) に条件付けた \(Y\) の期待値 \(E[Y_i|X_i]\)
  • \(Y\)連続型変数の時:

\[E[Y_i|X_i = x] = \int_{-∞}^{∞} yf(y|X_i = x)~dx\]

  • \(Y\)離散型変数の時:

\[E[Y_i|X_i = x] = \sum_y yPr(Y_i = y|X_i = x)\]

  • 条件(\(X_i の値x\))によって期待値(=平均値)が変わる

例):年代によって高血圧者割合の平均値が変わる

  • 年代 (30代、40代、50代、60代、70代以上)は離散型変数