このセクションで理解すること✔「回帰関数」とは「説明変数で条件付けた結果変数 𝑌 の条件付き期待値」
✔ 観測値・予測値・残差の関係
✔ 回帰係数と因果効果の関係
✔ 重回帰分析で因果効果(平均処置効果: ATE)を推定する条件

1. 記号の設定

  • 個体 \(i = 1, 2, 3,..., N\)
  • 結果変数(応答変数):\(Y_i\)
  • 処置変数(説明変数):\(D_i\)
  • 処置変数以外の説明変数: \(X_{1i}, X_{2i}, X_{3i},...,X_{ki}\)
    →この変数は「コントロール変数」「共変量」とも呼ばれる
  • ここで知りたいこと・・・\(D\)\(Y\) に与える因果効果

2. 期待値 (expectation)

2.1 「連続型」と「離散型」確率変数の期待値

  • \(Y_i\)連続型確率変数で確率密度が \(f(y)\) で表されるとき、\(Y\) の期待値 \(E[Yi]\)

\[E[Y_i] = \int_{-∞}^{∞} yf(y)~dx\]

  • \(y\) がとりうる範囲全てにおいて積分することで求められる

  • \(Y_i\)離散型確率変数のとき、\(Y\) の期待値 \(E[Yi]\)

\[E[Y_i] = \sum_y yPr(Y_i = y)\]
- 離散型確率変数の時は積分ではなく、をとる

2.2 条件付き期待値

  • \(X_i\) という変数の値が \(x\) の時、\(Y_i\) がとりうる値
    → \(X_i = x\) に条件付けた \(Y\) の期待値 \(E[Y_i|X_i]\)
  • \(Y\)連続型変数の時:

\[E[Y_i|X_i = x] = \int_{-∞}^{∞} yf(y|X_i = x)~dx\]

  • \(Y\)離散型変数の時:

\[E[Y_i|X_i = x] = \sum_y yPr(Y_i = y|X_i = x)\]

  • 条件(\(X_i の値x\))によって期待値(=平均値)が変わる

例):年代によって高血圧者割合の平均値が変わる

  • 年代 (30代、40代、50代、60代、70代以上)は離散型変数
  • 年代によって条件づけた高血圧者割合は、年代の関数
  • 年代によって条件づけた高血圧者割合は、年代に応じて変わる
年代 (\(X_i\)) 高血圧者割合の期待値 (\(E[Y_i|X_i]\)) 割合の程度
30s \(E[Y_i|X_i = 30s]\) 最も少ない
40s \(E[Y_i|X_i = 40s]\) ・・・
50s \(E[Y_i|X_i = 50s]\) ・・・
60s \(E[Y_i|X_i = 60s]\) ・・・
70s \(E[Y_i|X_i = 70s]\) 最も多い

ポイント✔ \(E[Y_i|X_i = x]\)\(X\) の関数

2.3 繰り返し条件付き期待値の法則

  • \(X_i\) に条件づけた \(Y\) の期待値は \(X\) の関数

\[E[E[Y_i|X_i]] = E[Y_i]\]

  • 離散型変数の場合の証明
  • 年代全体の平均をとる = 全ての年代の高血圧者割合の期待値(平均値)
    → 式から \(X\) が消える
    → \(Y\) だけの期待値 \(E(Y_i)\) が残る

\[E[E[Y_i|X_i]] = E[\sum_y yPr(Y_i = y|X_i)]\\ = \sum_x[\sum_y yPr(Y_i = y|X_i=x)]Pr(X_i = x)\\ = \sum_x\sum_y yPr(Y_i = y|X_i=x)Pr(X_i = x)\\ = \sum_yy[\sum_xPr(Y_i = y|X_i=x)]\\ = \sum_yyPr(Y_i = y) = E(Y_i) \]

3. 回帰 (regression)

線形仮定  

  • 「回帰関数」とは「説明変数で条件付けた結果変数 \(Y\) の条件付き期待値」
  • この「説明変数」には「処置変数」「コントロール変数」を含む
\(Y\) : 結果変数
\(D\) : 処置変数
\(X_1, X_2, X_3, ... X_k\) : コントロール変数
  • 結果変数 \(Y\) の確率密度 \(p(Y)\) を説明変数(処置変数とコントロール変数)の関数 \(f\) で表す

\[p(Y|D, X_1, X_2, X_3, ... X_k) = f(D, X_1, X_2, X_3,...,X_k)\]

  • 結果変数 \(Y\) を説明変数 \(D\) に回帰する (regress Y on D)
  • 回帰関数:

\[E[Y|D, X_1, X_2, X_3, ... X_k]\]

  • 次のように表してもよい

\[f[Y|D, X_1, X_2, X_3, ... X_k]\]

  • 回帰関数は線形関数だと仮定している
    その理由:
  1. 計算が簡単だから
  2. 仮に母集団における変数の関係が非線形だとしても誤差を小さくできるため
    → しかし、もし母集団の変数の関係を予め分かっているなら(例:二項分布や指数関数)
    → その分布を仮定すべき
    →  線形関数と非線形関数の詳細は「34. 最小二乗法と最尤法」を参照
  • 回帰関数は線形関数だと仮定している
    → 回帰関数は次のように表せる

\[E[Y_i|D_i, X_{1i}, X_{2i}, X_{3i},..., X_{ki}] \\ = \alpha + \beta D_i + \gamma_1X_{1i} + \gamma_2X_{2i} + \gamma_3X_{3i} + ・・・+ \gamma_kX{ki}\]

4. 単回帰 (simple regression)

  • \(Y\)\(D\) に回帰する (regress Y on D)
\(Y\) : 結果変数
\(D\) : 処置変数
  • 回帰関数: \(E[Y|D]\)
    説明変数 \(D\) で条件づけた結果変数 \(Y\) の条件付期待値
  • 回帰関数が線形関数だと仮定しているので、次のように表現できる

\[E[Y_i|D_i] = \alpha + \beta D_i\]

  • 説明変数 \(D\) を上手く推定することで、\(D\) が結果変数 \(Y\) に与える影響を確かめることができる

4.1 観測値・予測値・残差の関係

  • 青字が観測値・・・・実際に観測された値
  • 緑色が予測値 ・・・回帰で推定される予測値
  • 赤字が残差 (\(e_i\))・・・「観測値」と「予測値」の差

  • 「観測値」\(Y_i|D_i\) は「回帰関数」\(E[Y_i|D_i]\)と「残差 \(e_i\)」で構成される
  • ここで「回帰関数」\(E[Y_i|D_i]\)とは、回帰直線上の「予測値」のこと

\[Y_i|D_i = E[Y_i|D_i] + (Y_i|D_i - E[Y_i|D_i])\]

→ 「観測値」\(Y_i|D_i\) は、回帰直線上の「予測値」\(E[Y_i|D_i]\)と「観測値」と「予測値のずれ」(=残差 \(e_i\))を足した値

  • 残差 \(e_i\) は「観測値」と「予測値」の差
  • 残差 \(e_i\)\(D_i\) の関数

\[e_i|D_i = Y_i|D_i - E[Y_i|D_i|\]

  • 残差 \(e_i\) の期待値(=平均値)はゼロ
  • 残差にはプラスとマイナスの値があり、両方を合計した値はゼロ
  • OLS で推定すると残差の期待値(=平均値)はゼロ

\[E[e_i] = 0\]

  • \(D_i\) と残差 \(e_i\) の共分散もゼロ

\[Cov(D_i, e_i) = E[D_i, e_i] = 0\]

  • その証明:
    \[Cov(D_i, e_i) = E[[D_i - E[D_i]][e_i - E[e_i]]]\]
    \(E[e_i] = 0\) はゼロなので

\[Cov(D_i, e_i) = E[D_ie_i - E[D_i]E[e_i] \\ = E[D_ie_i] \]

  • 残差 \(e_i\) は「観測値」と「予測値」の差なので次のように表せる

\[e_i = Y_i |D_i - E[Y_i|D_i]\]

  • \(e_i\) は見かけ上、\(D_i\) の関数のように見えるが、\(D_i\) の影響は受けない

観測値・予測値・残差の関係線形を仮定しているので「観測値」\(Y_i|D_i\) 、「予測値」\(E[Y_i|D_i]\)、残差 \(e_i\) の関係は次のように表すことができる  

\[Y_i|D_i = E[Y_i|D_i] + e_i\\ = \alpha + \beta D_i + e_i\]

4.2 回帰係数βは条件付き期待値の差

  • \(\beta\) は回帰直線の傾き

\[Y_i|D_i = \alpha + \beta D_i + e_i\]

処置が二値変数の場合: \(D_i ∈ {0, 1}\)

  • 処置 \(D_i\) の値が 0 の時
    \[E[Y_i|D_i = 0] = E[\alpha + \beta ・0 + e_i] \\ = E[\alpha ] + E[\beta ・0] + E[e_i] = \alpha \]

  • 処置 \(D_i\) の値が 1 の時
    \[E[Y_i|D_i = 1] = E[\alpha + \beta ・1 + e_i]\\ = E[\alpha ] + E[\beta ・1] + E[e_i] = \alpha + \beta \]

  • 条件付き期待値の差は

\[E[Y_i|D_i = 1] - E[Y_i|D_i = 0] = \beta \]

「回帰係数\(\beta\)とは(処置が二値変数の場合)処置 \(D\) の値が 0 から 1 に変わったとき、結果変数 \(Y\) の期待値がどれだけ増えたかを表す値

処置が二値変数ではない場合: \(D_i ∈ R\)

  • 処置 \(D_i\) の値が小さい値 \(d\) の時
    \[E[Y_i|D_i = d] = E[\alpha + \beta ・d + e_i] \\ = E[\alpha ] + E[\beta ・d] + E[e_i] = \alpha + \beta d\]

  • 処置 \(D_i\) の値が大きい値 \(d+1\) の時
    \[E[Y_i|D_i = d + 1] = E[\alpha + \beta ・(d+1) + e_i]\\ = E[\alpha ] + E[\beta ・(d+1)] + E[e_i] = \alpha + \beta d + \beta \]

  • 条件付き期待値の差は

\[E[Y_i|D_i = d+ 1] - E[Y_i|D_i = d] = \beta \]

::: {.kakomi-box11} 「回帰係数\(\beta\)とは(処置が二値変数でない場合)処置 \(D\) の値が 1 単位分増えた時、結果変数 \(Y\) の期待値がどれだけ増えたかを表す値
:::   - 実例は「17. 重回帰分析 1 (単回帰と重回帰)」を参照

4.3 回帰係数βと因果効果の関係(単回帰)

  • \(\beta\) は回帰直線の傾き

\[Y_i|D_i = \alpha + \beta D_i + e_i\]

処置が二値変数の場合: \(D_i ∈ {0, 1}\)

  • 処置 \(D_i\) の値が 0 の時 (「処置群」)観察された期待値

\[E[Y_i|D_i = 0]\]

  • 処置 \(D_i\) の値が 1 の時 (「統制群」)観察された期待値

\[E[Y_i|D_i = 1]\]

潜在的結果
\(E[Y_i(1)|D_i = 1]\) \(D_i = 1\)の時の \(Y_i(1)\) の期待値
\(E[Y_i(0)|D_i = 0]\) \(D_i = 0\)の時の \(Y_i(0)\) の期待値
  • 処置群と統制群の観察された期待値の差 \(\beta\)

\[\beta = E[Y_i|D_i = 1] - E[Y_i|D_i = 0]\\ = E[Y_i(1)|D_i = 1] - E[Y_i(0)|D_i = 0]\]

  • 処置群と統制群の観察された期待値の差 \(\beta\) は「因果効果(平均処置効果)」ATE ではない  

  • 「通院する集団」(処置群)と「通院しない集団」(統制群)の事例で確認

回帰係数 \(\beta\)\(\beta\)は因果効果=平均処置効果 ATE ではない

\(\beta\)は「処置群」と「統制群」の観測された平均値の差

  • 観測された平均値の差 \(\beta\)

  • 通院の事例を使って、セルフセレクショによるセレクションバイアスがある場合を図で表すと次のとおり

  • 通院するグループ (\(D_i = 1\)) もしないグループ(\(D_i = 0\))も「もともとの健康状態が同じ」なら、つまり

\[E[Y_i(0)|D=1] = E[Y_i(0)|D=0] ならば\] → セレクションバイアスは消える
→ ATE (因果効果=平均処置効果)は推定できないが、ATT (処置群における平均処置効果)が推定できる

4.4 因果効果を推定する条件

  • もし平均独立が成り立つなら因果効果(平均処置効果: ATE)を計算できる

\[\beta = E[Y_i(1)|D_i = 1] - E[Y_i(0)|D_i = 0]\\ = E[Y_i(1)] - E[YI(0)]\\ = ATE\]

  • この関係を図で表すと次のようになる

因果効果(=平均処置効果 \(ATE\)) が推定できる条件✔ 平均独立が成り立てば平均処置効果 (ATE) が推定できる
\(RCT\) を施せば平均独立を満たすことができる

5. 重回帰 (multiple regression)

  • 重回帰分析を使えば、セルフセレクションを考慮できる → 最小二乗法 (\(OLS\)) の利点
  • セルフセレクションを考慮した回帰式を作ってみる
  • \(Y\)\(D\)\(X\) の関数
  • 回帰関数:\(D\)\(X\) で条件付けた \(Y\) の期待値
\(Y\) : 結果変数
\(D\) : 処置変数
\(X\) : コントロール変数
  • ここでも回帰関数は「線形」と仮定する

\[E[Y_i|D_i, X_i] = \alpha + \beta D_i + e_i\]

\[Y_|D_i, X_i = E[Y_i|D_i, X_i] + e_i = \alpha + \beta D_i + \gamma X_i + e_i\]

5.1 回帰係数βは条件付き期待値の差

  • \(\beta\) は回帰直線の傾き

\[Y_i|D_i = \alpha + \beta D_i + \gamma X_i + e_i\]

処置が二値変数の場合: \(D_i ∈ {0, 1}\)

  • 単回帰との違い・・・\(X_i\) を特定の値 \(x\) に固定していること: \(X_i = x\)
  • 処置 \(D_i\) の値が 0 の時

\[E[Y_i|D_i = 0, X_i = x] = E[\alpha + \beta ・0 + \gamma x + e_i] \\ = E[\alpha ] + E[\beta ・0] + E[\gamma x] + E[e_i] \\ = \alpha + \gamma x \]

  • 処置 \(D_i\) の値が 1 の時
    \[E[Y_i|D_i = 1, X_i = x] = E[\alpha + \beta ・1 + \gamma x + e_i] \\ = E[\alpha ] + E[\beta ・1] + E[\gamma x] + E[e_i] \\ = \alpha + \beta + \gamma x \]

  • 条件付き期待値の差は

\[E[Y_i|D_i = 1, X_i = x] - E[Y_i|D_i = 0, X_i = x] = \beta \]

重回帰係数\(\beta\)とは(処置が二値変数の場合)確率変数 \(X\) の値がある実現値 \(x\) の時、処置 \(D\) の値が 0 から 1 に変わった 時、結果変数 \(Y\) の期待値がどれだけ増えたかを表す値

5.2 回帰係数βと因果効果の関係(重回帰)

\[Y_i|D_i = \alpha + \beta D_i + \gamma X_i + e_i\]

  • 𝛽 は回帰直線の傾き
  • 処置群と統制群の観察された期待値の差 \(\beta\)

\[\beta = E[Y_i|D_i = 1, X_i = x] - E[Y_i|D_i = 0, X_i =x]\\ = E[Y_i(1)| D_i = 1, X_i = x] - E[Y_i(0)|D_i = 0, X_i = x]\]  

\(E[Y_i(1)|D_i = 1, X_i = x]\) : \(D_i = 1\) の時(通院する時)に観測される潜在的結果 \(Y_i(1)\) の期待値
\(E[Y_i(0)|D_i = 0, X_i = x]\) : \(D_i = 0\) の時(通院しない時)に観測される潜在的結果 \(Y_i(0)\) の期待値

  • ここで、二つのセレクションバイアスに関して

\[E[Y_i(1)|D_i = 1, X_i = x] = E[Y_i(1)|D_i = 0, X_i = x]\]

\[and\]

\[E[Y_i(0)|, D_i = 1, X_i = x] = E[Y_i(0)|D_i = 0, X_i = x]\]

という二つの条件が成り立つなら、\(\beta\) が因果効果(平均処置効果: \(ATE\))になる

\[\beta = E[Y_i(1)| X_i = x] - E[Y_i(0)|D_i = x]\\ = E[Y_i(1) - Y_i(0)|X_i = x]\\ = ATE\]  

重回帰係数\(\beta\)とは(処置が二値変数の場合)回帰係数 \(\beta\) は「\(X\) で条件づけた (\(X_i = x\)) 平均処置効果 (\(ATE\))

6. まとめ

  • セレクションバイアスを含んでいそうな調査・観察データであっても
  • 重回帰分析を使うことで、平均処置効果 (\(ATE\)) を推定できる
  • しかし、そのためには 2 つの条件を満たす必要がある

重回帰分析で ATE を推定する条件1. セレクションを生み出す変数を全て観測する
2. セレクションを生み出す変数を全て回帰式に含める

  • この二つの条件を満たせば → セレクションバイアスを除去できる
  • 現実的にはこれらの条件を「完全に」満たすことは難しい
    → しかし、セレクションバイアスを減らすことはできる
  • セレクションバイアスを生み出す変数・・・・交絡因子(共変量)
参考文献