このセクションで使っている R packages

library(broom)
library(tidyverse)
library(patchwork)
library(stargazer)

1. コントロール変数の選び方

調査・観察データには交絡変数が含まれる
交絡変数が含まれるとセレクションバイアスを引き起こす
セレクションバイアスがあると正しい因果効果を推定できない
→　重回帰分析で因果推論するために必要な変数を慎重に決める必要がある
→　セレクションバイアスの原因となる交絡変数を見つけてコントロールする
その手段がバックドア基準

2. バックドア基準

潜在的変数アプローチの考え方ではない
回帰分析モデルに含める変数を決める際、構造的因果モデルで使われる基準
どの変数をコントロールすべきかわかる
そのために使うグラフ：有向非巡回グラフ (DAG: directed acyclic graph)
疫学、統計学、経済学、政治学ごとに様々な用語で呼ばれるので注意が必要

記号	名称	内容	他の呼び方
\(X\)	: 統制変数 (control variable)	コントロール変数	= 交絡変数 (confounder)、共変量 (covariate)
\(D\)	: 処置変数 (treatment)	原因	= 介入、刺激、暴露、独立変数、説明変数
\(Y\)	: 結果変数 (outcome)	結果	= 応答変数、目的変数、従属変数

3. 交絡変数とバックドア経路

有向非巡回グラフ (DAG) を描いて考えてみる
「有効」(directed) とは一方から他方に向き（矢印）があるという意味
双方向に影響している　↔︎　という関係は想定しない
「非巡回」(acyclic) とはその矢印は変数の間をぐるりと「巡回しない」という意味
「バックドア経路」とは「ある変数が処置変数 \(D\) と結果変数 \(Y\) の両方の原因となる経路」のこと

3.1 バックドア経路（ケース 1）

変数 \(X1\) からは矢印が二つ出ており
処置 \(D\) と結果 \(Y\) にとって両方の原因になっている
→　変数 \(X1\) は交絡変数
しかし、変数 \(X2\) は結果 \(Y\) の原因にはなっているものの
処置 \(D\) の原因にはなっていない
→ 変数 \(X2\) はバックドア経路の中に組み込まれているはいるが、交絡変数ではない

結論・変数 \(X1\) は交絡変数なので、重回帰分析モデルに含める必要がある
・変数 \(X2\) は交絡変数ではないので、重回帰分析モデルに含める必要はない

バックドアを閉じる方法

「バックドアを閉じる」= 交絡を除去する　→　セレクションバイアスを取り除く　　
バックドアの閉じ方は次の三通り:

バックドアを閉じる方法	具体的な作業
1. \(X1\) をコントロール	\(X1\) を重回帰分析モデルに含める
2. \(X2\) をコントロール	\(X2\) を重回帰分析モデルに含める
3. \(X1\) と \(X2\) をコントロール	\(X1\) と \(X2\) を重回帰分析モデルに含める

3.2 バックドア経路（ケース 2）

\(X1\) は「処置 \(D\)」に影響を与えている
しかし「結果 \(Y\)」には影響を与えていない
→　\(X1\) は「交絡変数」ではない
\(X2\) は「処置 \(D\)」にも「結果 \(Y\)」にも影響を与えていない
→　\(X2\) は「交絡変数」ではない

結論・変数 \(X1\) と変数 \(X2\) は交絡変数ではないので、重回帰分析モデルに含める必要はない

3.3 バックドア経路（ケース 3）

\(X1\) は「結果 \(Y\)」に影響を与えているが
「処置 \(D\)」に影響を与えていない
→　\(X1\) は「交絡変数」ではない
\(X2\) は「結果 \(Y\)」に影響を与えているが
「処置 \(D\)」には影響を与えていない
→　\(X2\) は「交絡変数」ではない

結論・変数 \(X1\) と変数 \(X2\) は交絡変数ではないので、重回帰分析モデルに含める必要はない

4. 交絡変数・媒介変数・合流点と対処法

\(X\)	: 統制変数 (control variable)	コントロール変数
\(D\)	: 処置変数 (treatment)	原因
\(Y\)	: 結果変数 (outcome)	結果

\(X\) が原因、\(Y\) が結果だとすると「統制変数 \(X\)　は何か？」ということに関して次の 3 つの可能性がある

\(X\) の可能性	内容	対処法
\(X\) は \(D\) と \(Y\) との交絡変数 (confounder)	\(X\) は \(D\) と \(Y\) の両方に影響を与える	\(X\) をモデルに入れる
\(X\) は \(D\) と \(Y\) との媒介変数 (mediator)	\(D\) は \(X\) を経由して \(Y\) に影響を与える	\(X\) をモデルに入れない
\(X\) は \(D\) と \(Y\) との合流点 (collider)	\(X\) は \(D\) と \(Y\) の両方から影響を受ける	\(X\) をモデルに入れない

4.1 統制変数 \(X\)が「交絡変数」の場合　　

ここでは「あつもり \(Y\)」「身長 \(D\)」「性別 \(X\)」の事例を使って説明する
「性別 \(X\)」は交絡変数で「あつもり \(Y\)」と「身長 \(D\)」の両方に影響を与えている
「性別 \(X\)」（女 = 0, 男 = 1）は「あつもり \(Y\)」と負の関係がある
→　女性だと (\(X = 0\)）より「あつもり」をする
「性別 \(X\)」と「身長 \(D\)」は正の関係がある
→　男性だと (\(X = 1\)だと）より身長が高い
「性別 \(X\)」が増える（つまり、男性だと）「あつもり \(D\)」をやる時間は減り「身長」は増える
「性別 \(X\)」が減る（つまり、女性だと）「あつもり \(Y\)」をやる時間は増え「身長」は減る
→　\(X\) が増減すると、\(D\) と \(Y\) が同時に動く

まとめ・バックドアが開いた状態で（つまり「性別 \(X\)」をモデルに含まないで）「あつもり \(Y\)」を「身長 \(D\)」だけに回帰すると「性別 \(X\)」の変化が「あつもり \(Y\)」と「身長 \(D\)」の変化を同時に引き起こしてしまう

→脱落変数バイアス (OVB: Omitted Variable Bias)が生じてしまう

解決策:

バックドアを閉じる
→　 重回帰分析にコントロール変数として「性別 \(X\)」を加えることで「性別 \(X\)」の値を固定
→　脱落変数バイアスを引き起こす原因である「性別 \(X\)」をコントロールした回帰分析を実行
→「あつもり \(D\)」が男女を含めた「身長 \(Y\)」に与える因果効果をバイアスを除去して推定できる
もしくは男性だけ、女性だけのグループに分けて個別に回帰分析を行えば、男女別の因果効果を推定できる

統制変数 \(X\) が「交絡変数」でない場合:「都道府県の都市度」

ここで統制変数 \(X\) が「都道府県の都市度」だとする
地方（都市度が低い）に住む人と比較すると、都市（都市度が高い）に住む人の方があつもりをする時間が長いと仮定
「都市度 \(X\)」は「あつもり \(Y\)」に正の影響を与えている
しかし「都市度 \(X\)」は子供の「身長 \(D\)」とは無関係
→　「都市度 \(X\)」は交絡変数ではない

まとめ・重回帰分析モデルに「都道府県の都市度 \(X\)」を含めても「身長 \(D\)」が「あつもり \(Y\)」に与える因果効果を推定する上でのセレクションバイアスは生じない

4.2 統制変数 \(X\)が「媒介変数」の場合　　

私たちがここで知りたいことは「性別 \(D\)」→「あつもり \(Y\)」への因果効果 \(\beta\)

「性別」が「あつもり」に与える因果効果を知りたいのなら、右側のモデルは問題あり
その理由：処置後変数「身長」も「あつもり」に影響しているから

「性別」だけを含めた「正しいモデル」では、「性別」は「あつもり」に \(\beta\) という影響を与えている
しかし「性別」と「身長」両方の変数を入れた「間違ったモデル」では「性別」が「あつもり」に与える影響は 2 つある：\(\beta^w\) と \(\gamma^w λ\) の二つ
「性別」→「身長」→「あつもり」という経路で、「性別」が「あつもり」に \(\gamma ^wλ\) という影響を与えていることに注意
\(β^w\) だけで判断すると「性別」が「あつもり」に与える影響を \(\gamma ^wλ\) 分だけ過小評価（もしくは過大評価）してしまう
「性別」の処置効果の一部 \(\gamma^w λ\) は「身長」を通じて「あつもり」に伝わる

媒介変数を「バックドアの開閉」という観点から整理すると次のようになる

\(\beta\)	: 私たちが知りたい「性別」の因果効果（平均処置効果）: `ATE`
\(\beta^w\)	: 間違ったモデルで得られる「性別」の回帰係数
\(\gamma^w λ\)	:処置後変数バイアス
\(\gamma^w\) と \(λ\) の符号が同じ場合	: バイアスにより過小推定
\(\gamma^w\) と \(λ\) の符号が異なる場合	: バイアスにより過大推定
\(\gamma^w\) または \(λ\) がゼロの場合	: バイアスは生じない

まとめ・理論的に考えて媒介変数（中間因子）だと思われる変数は、回帰分析モデルには含めない

4.3 統制変数 \(X\)が「合流点」の場合　　

アメリカの大学院の合否と GRE (Graduate Record Examination) の関係を考える（架空データ）
米国の大学院に出願するためには GRE と呼ばれる「大学院入学資格試験」を受験したければならない
GRE は Math（数学）、Verval（国語）Analytical（分析力）の三つの試験から構成される（各800点満点）
ここでは議論を簡略化するために Analytic を省略
大学院の合否は基本的に GRE のスコアの総合点で決まると想定
→「大学院の合否 \(X\)」は合流点
→「国語の点数 \(D\)」と「英語の点数 \(Y\)」のどちらも「大学院の合否 \(X\)」に影響している
しかし「国語の点数 \(D\)」から「数学の点数 \(Y\)」への因果効果はないと想定

合流点である「大学院の合否」をコントロールした場合に起こる事

合流点「大学院の合否 \(X\)」を含まない単回帰モデルで「英語の点数 \(D\)」の「合否 \(Y\)」への因果効果を推定できる
合流点「大学院の合否 \(X\)」をコントロールすると重回帰分析では存在しない因果効果を捉えてしまう
「国語の点数 \(D\)」と「英語の点数 \(Y\)」の間に負の因果効果があるように見える（実はない）
その理由：

✔「英語の点数 \(D\)」が低くても「数学の点数 \(Y\)」が高ければ合格できるため
✔「数学の点数 \(Y\)」が低くても「英語の点数 \(D\)」が高ければ合格できるため

合流点を「バックドアの開閉」という観点から整理すると次のようになる

まとめ・理論的に考えて合流点だと思われる変数は、回帰分析モデルには含めない

5. Excercise

後日アップします

参考文献

授業教材（矢内勇生）＠高知工科大学
宋財泫 (Jaehyun Song)・矢内勇生 (Yuki Yanai)「私たちのR: ベストプラクティスの探究」
Imbens, Guido and Donald B. Rubin (2015), Causal Inference for Statistics, Social, and Biomedical Sciences : An Introduction
Hernan, Miguel and James M. Robins (2020), Causal Inference: What If.
浅野正彦, 矢内勇生.『Rによる計量政治学』オーム社、2018年

26. 重回帰分析 9（コントロール変数の選び方：バックドア基準と DAG）

Masahiko Asano

2022-09-10