library(tidyverse)
library(stargazer)

1.「統計モデリング」とは?

  • 興味がある社会現象から本質的だと思われる要素だけを「変数」として抜き出す
  • その変数間の関係を確率分布でモデル化してデータに当てはめたもの
  • ここでは分析対象となる変数を使って確率を計算する際、データの種類に応じて正規分布・二項分布・ポアソン分布のいずれの分布を使うのか、ということを検討する

データの種類と使用する確率分布

  1. 二項分布を使う場合・・・ 0.1 ≤ p ≤ 0.9n ≤20 の時

  2. 正規分布を使う場合・・・n が大きく np(1−p) ≥ 25 の時

  3. ポアソン分布を使う場合・・・「単位時間あたりに、ある現象が何回起こるか」のように p が非常に小さい値の時

データの種類
実験データ 様々な条件を管理された条件下で生成されたデータ
観察データ 対象以外の様々な影響を受けて生成されたデータ
  • 得られたデータを単純比較するだけでは「要因」と「結果」の関係は分からない
  • データが生み出された状況や生成過程を考慮せずに単純な分析をする際には、
    → 誤った結論を導くことがあるので注意が必要
    → 扱うデータがどのようにして生み出されたのかということに留意する
      

1.1 統計モデリング

  • 統計モデリングとは結果 \(y\) (応答変数)と要因 \(x\)(説明変数)の関係をモデル化すること

\[{y} 〜 P(θ)\]
\[{θ} = f(x|β)\] 

\(P(θ)\) : 確率分布
\(θ\) : 分布のパラメータ
\(f(x|β)\) : 説明変数 \(x\) と確率分布のパラメータの関係を表す
\(β\) : 関数 \(f\) のパラメータ

統計モデリングと推定プロセス

  • 得られた応答変数の分布に従って、適切な確率分布 \(P(θ)\) を選ぶ
  • 適切な説明変数 \(x\) を選ぶ
  • 両者の関係を \(f(x|β)\) で記述する
  • \(β\) はデータにモデルを当てはめるためのパラメータ(回帰分析なら回帰係数に相当)
  • \(β\) は目的やモデルの複雑さに応じて最尤推定法やマルコフ連鎖モンテカルロ法 (MCMC)などを用いてアルゴリズムによって決める
  • \(f(x|β)\) というモデルの下で、観測したデータ \(x\) から観測したデータ \(y\) を最も高い確率で生成できるようにパラメータ \(β\) を求める

確率分布 \(P(θ)\) の選び方

  • 得られた応答変数の分布に従って、適切な確率分布 \(P(θ)\) を選ぶ
  • 応答変数のヒストグラムを描いてみる
    → 分析しようとしている応答変数がどのように生成されたかを考える
    → 採用すべき分布を決める

1.2 ベルヌーイ分布

ベルヌーイ試行(Bernoulli Distributuio)

  • 1 回の試行で 2 種類のどちらかの事象しか起こらない試行のこと
試行の種類
コインを投げて表がでるか? ベルヌーイ試行(表 or 裏)
サイコロを投げて奇数がでるか? ベルヌーイ試行(奇数 or 偶数)
サイコロを投げて 1 の目がでるか? ベルヌーイ試行(1 or その他)
サイコロを投げてどの目がでるか? ベルヌーイ試行ではない(1, 2, 3,…, or 6)
  • ある事象が起こるか (x = 1) 起こらないか (x = 0) の確率をモデル化する \[Bernoulli(x|p) = p^x(1-p)^{(1-x)}\]

  • \(p\)\(x = 1\) になる確率

  • \(x\) がベルヌーイ分布に従うとき、次のように表記する
    \[x 〜Bernoulli\]

  • 平均は \(p\)

  • 分散は \(p(1-p)\)

  • 標準偏差は \({\sqrt{p(1-p)}}\)

事例

  1. 選挙に当選した(x = 1)、落選した(x = 0
  2. ある商品を買う(x = 1)、買わない(x = 0

1.3 二項分布

二項分布 (Binomial Distributuio)
- 互いに独立したベルヌーイ試行(成功確率 = P、失敗確率 = 1 - p)を n 回行った時の成功回数に関する離散確率分布
- 一般的に「二項分布」は「ベルヌーイ分布」と同意語で使われる
- 「二項分布」の方が良く使われる
- 二項分布は次の確率関数で表す

\[P(X = k) = _nC_kp^k(1-p)^{n-k}\]
p: 成功確率 (0 ≦ p ≦ 1)
n: 試行回数
k: 成功回数

  • この式は「成功確率 p の試行を n 回実行した時に k 回成功する確率」を表す

  • nCkn 個から k 個を選ぶ組み合わせの数のことで、次の式で求めることができる

\[_nC_k = \frac{n!}{k!(n-k)!}\]

  • ある確率変数 X が二項分布 B(n,p) に従う場合次のように表す

\[X 〜 B(n, p)\]

2. 二項分布の実例(サッカー PK)