library(tidyverse)
library(stargazer)
データの種類と使用する確率分布
二項分布を使う場合・・・
0.1 ≤ p ≤ 0.9
で n ≤20
の時
正規分布を使う場合・・・n
が大きく
np(1−p) ≥ 25
の時
ポアソン分布を使う場合・・・「単位時間あたりに、ある現象が何回起こるか」のように
p
が非常に小さい値の時
データの種類 | |
---|---|
実験データ | 様々な条件を管理された条件下で生成されたデータ |
観察データ | 対象以外の様々な影響を受けて生成されたデータ |
\[{y} 〜 P(θ)\]
\[{θ} = f(x|β)\]
\(P(θ)\) | : 確率分布 |
\(θ\) | : 分布のパラメータ |
\(f(x|β)\) | : 説明変数 \(x\) と確率分布のパラメータの関係を表す |
\(β\) | : 関数 \(f\) のパラメータ |
統計モデリングと推定プロセス
確率分布 \(P(θ)\) の選び方
ベルヌーイ試行(Bernoulli Distributuio
)
試行の種類 | |
---|---|
コインを投げて表がでるか? | ベルヌーイ試行(表 or 裏) |
サイコロを投げて奇数がでるか? | ベルヌーイ試行(奇数 or 偶数) |
サイコロを投げて 1 の目がでるか? | ベルヌーイ試行(1 or その他) |
サイコロを投げてどの目がでるか? | ベルヌーイ試行ではない(1, 2, 3,…, or 6) |
ある事象が起こるか (x = 1
) 起こらないか
(x = 0
) の確率をモデル化する \[Bernoulli(x|p) =
p^x(1-p)^{(1-x)}\]
\(p\) は \(x = 1\) になる確率
\(x\)
がベルヌーイ分布に従うとき、次のように表記する
\[x 〜Bernoulli\]
平均は \(p\)
分散は \(p(1-p)\)
標準偏差は \({\sqrt{p(1-p)}}\)
事例
x = 1
)、落選した(x = 0
)x = 1
)、買わない(x = 0
)二項分布 (Binomial Distributuio
)
- 互いに独立したベルヌーイ試行(成功確率 = P
、失敗確率 =
1 - p
)を n
回行った時の成功回数に関する離散確率分布
- 一般的に「二項分布」は「ベルヌーイ分布」と同意語で使われる
- 「二項分布」の方が良く使われる
- 二項分布は次の確率関数で表す
\[P(X = k)
= _nC_kp^k(1-p)^{n-k}\]
p
: 成功確率 (0 ≦ p ≦ 1
)
n
: 試行回数
k
: 成功回数
この式は「成功確率 p
の試行を n
回実行した時に k
回成功する確率」を表す
nCk
は n
個から k
個を選ぶ組み合わせの数のことで、次の式で求めることができる
\[_nC_k = \frac{n!}{k!(n-k)!}\]
X
が二項分布 B(n,p)
に従う場合次のように表す\[X 〜 B(n, p)\]