library(tidyverse)
library(stargazer)
データの種類と使用する確率分布
二項分布を使う場合・・・
0.1 ≤ p ≤ 0.9
で n ≤20
の時
正規分布を使う場合・・・n
が大きく
np(1−p) ≥ 25
の時
ポアソン分布を使う場合・・・「単位時間あたりに、ある現象が何回起こるか」のように
p
が非常に小さい値の時
データの種類 | |
---|---|
実験データ | 様々な条件を管理された条件下で生成されたデータ |
観察データ | 対象以外の様々な影響を受けて生成されたデータ |
\[{y} 〜 P(θ)\]
\[{θ} = f(x|β)\]
\(P(θ)\) | : 確率分布 |
\(θ\) | : 分布のパラメータ |
\(f(x|β)\) | : 説明変数 \(x\) と確率分布のパラメータの関係を表す |
\(β\) | : 関数 \(f\) のパラメータ |
統計モデリングと推定プロセス
確率分布 \(P(θ)\) の選び方
ベルヌーイ試行(Bernoulli Distributuio
)
試行の種類 | |
---|---|
コインを投げて表がでるか? | ベルヌーイ試行(表 or 裏) |
サイコロを投げて奇数がでるか? | ベルヌーイ試行(奇数 or 偶数) |
サイコロを投げて 1 の目がでるか? | ベルヌーイ試行(1 or その他) |
サイコロを投げてどの目がでるか? | ベルヌーイ試行ではない(1, 2, 3,…, or 6) |
ある事象が起こるか (x = 1
) 起こらないか
(x = 0
) の確率をモデル化する \[Bernoulli(x|p) =
p^x(1-p)^{(1-x)}\]
\(p\) は \(x = 1\) になる確率
\(x\)
がベルヌーイ分布に従うとき、次のように表記する
\[x 〜Bernoulli\]
平均は \(p\)
分散は \(p(1-p)\)
標準偏差は \({\sqrt{p(1-p)}}\)
事例
x = 1
)、落選した(x = 0
)x = 1
)、買わない(x = 0
)二項分布 (Binomial Distributuio
)
- 互いに独立したベルヌーイ試行(成功確率 = P
、失敗確率 =
1 - p
)を n
回行った時の成功回数に関する離散確率分布
- 一般的に「二項分布」は「ベルヌーイ分布」と同意語で使われる
- 「二項分布」の方が良く使われる
- 二項分布は次の確率関数で表す
\[P(X = k)
= _nC_kp^k(1-p)^{n-k}\]
p
: 成功確率 (0 ≦ p ≦ 1
)
n
: 試行回数
k
: 成功回数
この式は「成功確率 p
の試行を n
回実行した時に k
回成功する確率」を表す
nCk
は n
個から k
個を選ぶ組み合わせの数のことで、次の式で求めることができる
\[_nC_k = \frac{n!}{k!(n-k)!}\]
X
が二項分布 B(n,p)
に従う場合次のように表す\[X 〜 B(n, p)\]
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 0
: ゴールする回数
1回目 | 2回目 | 3回目 | 1回目〜3回目の組み合わせが起こる確率 |
---|---|---|---|
× | × | × | 1 x 0.1 x 0.1 x 0.1 = 0.001 |
(2)
の式にn = 3
, k = 0
を代入する\[_3C_0 = \frac{3!}{0!(3-0)!}= \frac{3!}{3!} = 1\]
(1)
の式に \(_3C_0 =
1\), n = 3
, k = 0
, p = 0.9
を代入する\[P(X = 0) = 1 x 0.9^0(0.1)^{3} = (0.1)^{3}\] \[= 0.001 ・・・(0.1パーセント)\]
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 1
: ゴールする回数
1回目 | 2回目 | 3回目 | 1回目〜3回目の組み合わせが起こる確率 |
---|---|---|---|
ゴール | × | × | 0.9 x 0.1 x 0.1 |
× | ゴール | × | 0.1 x 0.9 x 0.1 |
× | × | ゴール | 0.1 x 0.1 x 0.9 |
3 x 0.9 x 0.1 x 0.1 = 0.027 | |||
(2)
の式にn = 3
, k = 1
を代入する\[_3C_1 = \frac{3!}{1!(3-1)!}= \frac{3!}{2!} = 3\]
(1)
の式に \(_3C_1 =
3\), n = 3
, k = 1
, p = 0.9
を代入する\[P(X = 1) = 3 x 0.9^1(0.1)^{2} = (0.1)^{3}\] \[= 0.027 ・・・(2.7パーセント)\]
ゴール成功率が 90% の PK 戦で、3 回キックして 2
回ゴールする確率は
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 2
: ゴールする回数
3 回キックして「2 回ゴールする」という組み合わせ \(_3C_2\) は次の 3 通り
1回目 | 2回目 | 3回目 | 1回目〜3回目の組み合わせが起こる確率 |
---|---|---|---|
ゴール | ゴール | × | 0.9 x 0.9 x 0.1 |
ゴール | × | ゴール | 0.9 x 0.1 x 0.9 |
× | ゴール | ゴール | 0.1 x 0.9 x 0.9 |
3・0.9 x 0.9 x 0.1= 0.729 | |||
k = 2
, n = 3
,
p = 0.9
を代入して表が出る確率を計算する\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]
(2)
の式にn = 3
, k = 2
を代入する\[_3C_2 = \frac{3!}{2!(3-2)!}= \frac{3!}{2!} = 3\]
(1)
の式に \(_3C_2 =
3\), n = 3
, k = 2
, p = 0.9
を代入する\[P(X = 2) = 3 x 0.9^2(0.1)^1 = 0.243\] \[= 0.243 ・・・(24.3パーセント)\]
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 3
: ゴールする回数
1回目 | 2回目 | 3回目 | 1回目〜3回目の組み合わせが起こる確率 |
---|---|---|---|
ゴール | ゴール | ゴール | 1・0.9 x 0.9 x 0.9 = 0.729 |
k = 3
, n = 3
,
p = 0.9
を代入して表が出る確率を計算する\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]
(2)
の式にn = 3
, k = 3
を代入する\[_3C_3 = \frac{3!}{3!(3-3)!}= \frac{3!}{3!} = 1\]
(1)
の式に \(_3C_3 =
1\), n = 3
, k = 3
, p = 0.9
を代入する\[P(X = 3) = 1 x 0.9^3(0.1)^{0} = (0.9)^{3}\] \[= 0.729 ・・・(72.9パーセント)\]
ゴールする回数 | 0回 | 1回 | 2回 | 3回 | 合計 |
---|---|---|---|---|---|
ゴールする確率 | 0.1 | 2.7 | 24.3 | 72.9 | 100% |
成功率が 90% の PK 戦で、3 回キックして 0 回ゴールする確率
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 0
: ゴールする回数
\(_3C_0\) の計算
factorial(3) / (factorial(0)*factorial(3-0))
[1] 1
\(P(X = 0)\) の計算
\[_3C_0(0.9)^3(1-0.9)^{3-0}\]
1*(0.9)^0*(1-0.9)^3
[1] 0.001
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 1
: ゴールする回数
\(_3C_1\) の計算
factorial(3) / (factorial(1)*factorial(3-1))
[1] 3
\(P(X = 1)\) の計算
\[_3C_1(0.9)^2(1-0.9)^{3-1}\]
3*(0.9)^1*(1-0.9)^2
[1] 0.027
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 2
: ゴールする回数
\(_3C_2\) の計算
factorial(3) / (factorial(2)*factorial(3-2))
[1] 3
\(P(X = 2)\) の計算
\[_3C_2(0.9)^2(1-0.9)^{3-2}\]
3*(0.9)^2*(1-0.9)^1
[1] 0.243
p = 0.9
: ゴールする確率
n = 3
: 試行回数
k = 3
: ゴールする回数
\(_3C_3\) の計算
factorial(3) / (factorial(3)*factorial(3-3))
[1] 1
\(P(X = 3)\) の計算
\[_3C_3(0.9)^3(1-0.9)^{3-3}\]
1*(0.9)^3*(1-0.9)^0
[1] 0.729
1993年から2013年までの 20 シーズンで、J1 においては 1228 本の PK が与えられ、うち 947 本が成功している(出典:ウィキペディア)。平均的な J1 の選手が 4 回キックしてゴールする確率をゴール回数ごとに求め、次の表を完成させなさい。
ゴールする回数 | 0回 | 1回 | 2回 | 3回 | 4回 | 合計 |
---|---|---|---|---|---|---|
ゴールする確率 | ? | ? | ? | ? | ? | 合計 |
表が出る確率(コインの表が出る回数 k
ごと)
p
: 表が出る確率 (0 ≦ p ≦ 1
)
n
: 試行回数
k
: 表が出る回数
k = 0, 1, 2, 3, 4
それぞれの場合における確率を計算する\(P(X = 0)\)・・・表が 0
回出る確率
\(P(X = 1)\)・・・表が 1
回出る確率
\(P(X = 2)\)・・・表が 2
回出る確率
\(P(X = 3)\)・・・表が 3
回出る確率
\(P(X = 4)\)・・・表が 4 回出る確率
k : 表が出る回数 |
0回 | 1回 | 2回 | 3回 | 4回 |
---|---|---|---|---|---|
表がでる確率 P(X = k) |
? | ? | ? | ? | ? |
k = 0
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 0
: 表が出る回数
1回目 | 2回目 | 3回目 | 4回目 | 1回目〜4回目の組み合わせが起こる確率 |
---|---|---|---|---|
裏 | 裏 | 裏 | 裏 | = 1 x 0.5 x 0.5 x 0.5 x 0.5 = 0.0625 |
n = 4
, k = 0
,
p = 0.5
を代入して表が出る確率を計算できる\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]
(2)
の式にn = 4
, k = 0
を代入する\[_4C_0 = \frac{4!}{0!(4-0)!}= \frac{4!}{4!} = 1\]
(1)
の式に \(_4C_0 =
1\), n = 4
, k = 0
, p = 0.5
を代入する\[P(X = 0) = 1 x 0.5^0(1-0.5)^{4-0}\] \[= (0.5)^{4} = 0.0625 ・・・(6.25パーセント)\]
k = 1
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 1
: 表が出る回数
1回目 | 2回目 | 3回目 | 4回目 | 1回目〜4回目の組み合わせが起こる確率 |
---|---|---|---|---|
表 | 裏 | 裏 | 裏 | = 0.5 x 0.5 x 0.5 x 0.5 |
裏 | 表 | 裏 | 裏 | = 0.5 x 0.5 x 0.5 x 0.5 |
裏 | 裏 | 表 | 裏 | = 0.5 x 0.5 x 0.5 x 0.5 |
裏 | 裏 | 裏 | 表 | = 0.5 x 0.5 x 0.5 x 0.5 |
4 x (0.5 x 0.5 x 0.5 x 0.5) = 0.25 | ||||
(2)
の式にn = 4
, k = 1
を代入する\[_4C_1 = \frac{4!}{1!(4-1)!}= \frac{4!}{3!} = 4\]
(1)
の式に \(_4C_1 =
4\), n = 4
, k = 1
, p = 0.5
を代入する\[P(X = 1) = 4 x 0.5^1(1-0.5)^{4-1}\] \[= 2・(0.5)^3 = 0.25 ・・・(25パーセント)\]
k = 2
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 2
: 表が出る回数
1回目 | 2回目 | 3回目 | 4回目 | 1回目〜4回目の組み合わせが起こる確率 |
---|---|---|---|---|
表 | 表 | 裏 | 裏 | = 0.5 x 0.5 x 0.5 x 0.5 |
表 | 裏 | 表 | 裏 | = 0.5 x 0.5 x 0.5 x 0.5 |
表 | 裏 | 裏 | 表 | = 0.5 x 0.5 x 0.5 x 0.5 |
裏 | 表 | 表 | 裏 | = 0.5 x 0.5 x 0.5 x 0.5 |
裏 | 表 | 裏 | 表 | = 0.5 x 0.5 x 0.5 x 0.5 |
裏 | 裏 | 表 | 表 | = 0.5 x 0.5 x 0.5 x 0.5 |
6 x (0.5 x 0.5 x 0.5 x 0.5 x 0.5 x 0.5) = 0.375 | ||||
(2)
の式にn = 4
, k = 2
を代入する\[_4C_2 = \frac{4!}{2!(4-2)!}= \frac{4!}{2!2!} = 6\]
(1)
の式に \(_4C_2 =
6\), n = 4
, k = 2
, p = 0.5
を代入する\[P(X = 2) = 6 x 0.5^2(1-0.5)^{4-2}\] \[= 6・(0.5)^4 = 0.375 ・・・(37.5パーセント)\]
k = 3
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 3
: 表が出る回数
1回目 | 2回目 | 3回目 | 4回目 | 1回目〜4回目の組み合わせが起こる確率 |
---|---|---|---|---|
表 | 表 | 表 | 裏 | = 0.5 x 0.5 x 0.5 x 0.5 |
表 | 表 | 裏 | 表 | = 0.5 x 0.5 x 0.5 x 0.5 |
裏 | 表 | 表 | 表 | = 0.5 x 0.5 x 0.5 x 0.5 |
表 | 裏 | 表 | 表 | = 0.5 x 0.5 x 0.5 x 0.5 |
4 x (0.5 x 0.5 x 0.5 x 0.5) = 0.25 | ||||
(2)
の式にn = 4
, k = 3
を代入する\[_4C_3 = \frac{4!}{3!(4-3)!}= \frac{4!}{3!} = 4\]
(1)
の式に \(_4C_3 =
4\), n = 4
, k = 3
, p = 0.5
を代入する\[P(X = 3) = 4 x 0.5^3(1-0.5)^{4-3}\] \[= 4・(0.5)^4 = 0.25 ・・・(25パーセント)\]
k = 4
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 4
: 表が出る回数
1回目 | 2回目 | 3回目 | 4回目 | 1回目〜4回目の組み合わせが起こる確率 |
---|---|---|---|---|
表 | 表 | 表 | 表 | = 1 x 0.5 x 0.5 x 0.5 x 0.5 = 0.0625 |
(2)
の式にn = 4
, k = 4
を代入する\[_4C_4 = \frac{4!}{4!(4-4)!}= \frac{4!}{4!} = 1\]
(1)
の式に \(_4C_4 =
1\), n = 4
, k = 4
, p = 0.5
を代入する\[P(X = 4) = 1 x 0.5^4(1-0.5)^{4-4}\] \[= 1・(0.5)^4 = 0.0625 ・・・(6.25パーセント)\]
k の値 | 0回 | 1回 | 2回 | 3回 | 4回 | 合計 |
---|---|---|---|---|---|---|
表がでる確率 | 6.25 | 25 | 37.5 | 25 | 6.25 | 100% |
ここまでの結果を R を使って計算してみる
コインを 4 回投げた時に、表が 0 回出る確率
(k = 0
)
p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 0
: 表が出る回数
\(_4C_0\) の計算
factorial(4) / (factorial(0)*factorial(4-0))
[1] 1
\(P(X = 0)\) の計算
\[_4C_0(0.5)^0(1-0.5)^{4-0}\]
1*(0.5)^0*(1-0.5)^4
[1] 0.0625
k = 1
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 1
: 表が出る回数
\(_4C_1\) の計算
factorial(4) / (factorial(1)*factorial(4-1))
[1] 4
\(P(X = 1)\) の計算
\[_4C_1(0.5)^1(1-0.5)^{4-1}\]
4*(0.5)^1*(1-0.5)^3
[1] 0.25
k = 2
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 2
: 表が出る回数
\(_4C_2\) の計算
factorial(4) / (factorial(2)*factorial(4-2))
[1] 6
\(P(X = 2)\) の計算
\[_4C_2(0.5)^2(1-0.5)^{4-2}\]
6*(0.5)^2*(1-0.5)^2
[1] 0.375
k = 3
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 3
: 表が出る回数
\(_4C_3\) の計算
factorial(4) / (factorial(3)*factorial(4-3))
[1] 4
\(P(X = 3)\) の計算
\[_4C_3(0.5)^3(1-0.5)^{4-3}\]
4*(0.5)^3*(1-0.5)^1
[1] 0.25
k = 4
)p = 0.5
: 表が出る確率
n = 4
: 試行回数
k = 4
: 表が出る回数
\(_4C_4\) の計算
factorial(4) / (factorial(4)*factorial(4-4))
[1] 1
\(P(X = 4)\) の計算
\[_4C_4(0.5)^4(1-0.5)^{4-4}\]
1*(0.5)^4*(1-0.5)^0
[1] 0.0625
表が出る回数 | 0回 | 1回 | 2回 | 3回 | 4回 | 合計 |
---|---|---|---|---|---|---|
表が出る確率 | ? | ? | ? | ? | ? | 100% |
二項分布の期待値(平均)\(E(X) = np\) 二項分布 \(B(n,p)\) に従う確率変数 \(X\) の期待値 \(E(X) = np\)
\[np = 2・0.5 = 1\]
→ 50% の確率で表が出るコインを 2 回投げたら平均的には 1 回表がでる
\[np = 4・0.5 = 2\]
k の値 | 0回 | 1回 | 2回 | 3回 | 4回 | 合計 |
---|---|---|---|---|---|---|
表がでる確率 | 6.25 | 25 | 37.5 | 25 | 6.25 | 100% |
二項分布の分散 \(V(X) = np(1-p)\) 二項分布 \(B(n,p)\) に従う確率変数 \(X\) の分散 \(V(X)
= np(1-p)\)
- 標準偏差・・・\({\sqrt{np(1-p)}}\)
\[V(X) = np(1-p) = 4 x 0.5・0.5 = 1\]
p = 1/6
,
n = 100
\[E(X) = np = 100 x (1/6) = 16.666...\]
→ 50% の確率で表が出るコインを 100 回投げたら平均的には 16.7
回程度表出ると「期待」される
→ しかし、試行の結果(例えば、20回表が出たとする)がどの程度レアなケースなのか分からない
→ 試しに、二項分布の確率関数を使って「20回表が出る確率」を計算してみる
20回表が出た場合の確率
次の式に n = 100
, k = 20
,
p = 1/6
を代入して表が出る確率を計算する
\[P(X = k) = _nC_kp^k(1-p)^{n-k}
・・・・(1)\]
\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]
(2)
の式にn = 100
, k = 20
を代入する\[[_{100}C_{20} = \frac{100!}{20!(100-20)!}= \frac{100!}{20!・80!} = \frac{100・99・...・81}{20!}\]
(1)
の式に \(_{100}C_{20}\)の値, n = 100
,
k = 20
, p = 1/6
を代入する\[P(X = 20) = _{100}C_{20}・(1/6)^{20}・(1-1/6)^{80} = 0.067862\]
P(X=20)
の計算方法factorial(100) / (factorial(20)*factorial(100-20))
[1] 5.359834e+20
k = 20, n = 100, p = 0.5
を (1)
に代入する\[P(X = 20) = _{100}C_{20}(1/6)^{20}(1-1/6)^{100-20}\]
5.359834e+20)*(1/6)^20*(1-1/6)^80 (
[1] 0.067862
100回サイコロを振って 20 回 1 の目が出る確率は 6.78%
R を使えば計算できるが、かなり大変(^_^;)
解決策: 二項分布を「正規分布」に近似させる
正規分布による近似 - 二項分布は分散 \(\sqrt{np(1-p)}\) が十分に大きければ、平均 \(μ\), 分散 \(σ^2\) の正規分布に近似できる(正規近似=ラプラスの定理)
「正規分布に近似できる」というのは「平均との差が標準偏差で何個分かという基準で確率を求めることができるということ」
具体的な計算方法
\[平均:μ = E(X) = np = 100・1/6 =
16.66\]
\[分散:σ^2 = V(X) = np(1-p) = 100・1/6・5/6 =
18.88\]
\[標準偏差:σ = \sqrt{np(1-p)} = 100・1/6・5/6
=4.35\]
二項分布 \(B(100, 1/6)\) は、平均 18.88、標準偏差 4.35の正規分布に近似できる
範囲 | 出現確率 | サイコロの目の範囲 | |
---|---|---|---|
平均 ±1 標準偏差 | 約68% | 14〜23回 | 20回 1 の目が出るケースはよくある |
平均 ±2 標準偏差 | 約95% | 10〜27回 | 28回 1 の目が出るケースは珍しい |
平均 ±3 標準偏差 | 約99% | 6〜32回 | 33回以上 1 の目が出るケースはかなり珍しい |
「100回サイコロを投げたときに 1 の目が出る回数」は
約 68%の確率で 14〜23回におさまり
約 95%の確率で 10〜27回におさまり
約 99%の確率で 6〜32回におさまる
結論 「50% の確率で表が出るコインを 100 回投げたら 1 の目が 20回出た」という事実は「よくあるケース」だといえる
正規分布による近似における 3 つの基準
(1) \(min(np,n(1−p))>10\)
(2) \(0.1≤p≤0.9\) かつ \(np(1−p)>25\)
(3) \(np(1−p)>25\)
基準 | 実際の数値 | 評価 | |
---|---|---|---|
(1) \(min(np,n(1−p))>10\) | \(np = n(1-p) = 50\) | 条件を満たす | |
(2) \(0.1≤p≤0.9\) かつ \(np(1−p)>25\) | \(p=0.5\) かつ \(np(1−p)=18.88\) | 条件を満たす | |
(3) \(np(1−p)>25\) | \(np(1−p)=18.88\) | 条件を満たさず | |
→ 比較的高い精度で二項分布を正規分布に近似できたといえる
参考文献