library(tidyverse)
library(stargazer)

1.「統計モデリング」とは?

  • 興味がある社会現象から本質的だと思われる要素だけを「変数」として抜き出す
  • その変数間の関係を確率分布でモデル化してデータに当てはめたもの
  • ここでは分析対象となる変数を使って確率を計算する際、データの種類に応じて正規分布・二項分布・ポアソン分布のいずれの分布を使うのか、ということを検討する

データの種類と使用する確率分布

  1. 二項分布を使う場合・・・ 0.1 ≤ p ≤ 0.9n ≤20 の時

  2. 正規分布を使う場合・・・n が大きく np(1−p) ≥ 25 の時

  3. ポアソン分布を使う場合・・・「単位時間あたりに、ある現象が何回起こるか」のように p が非常に小さい値の時

データの種類
実験データ 様々な条件を管理された条件下で生成されたデータ
観察データ 対象以外の様々な影響を受けて生成されたデータ
  • 得られたデータを単純比較するだけでは「要因」と「結果」の関係は分からない
  • データが生み出された状況や生成過程を考慮せずに単純な分析をする際には、
    → 誤った結論を導くことがあるので注意が必要
    → 扱うデータがどのようにして生み出されたのかということに留意する
      

1.1 統計モデリング

  • 統計モデリングとは結果 \(y\) (応答変数)と要因 \(x\)(説明変数)の関係をモデル化すること

\[{y} 〜 P(θ)\]
\[{θ} = f(x|β)\] 

\(P(θ)\) : 確率分布
\(θ\) : 分布のパラメータ
\(f(x|β)\) : 説明変数 \(x\) と確率分布のパラメータの関係を表す
\(β\) : 関数 \(f\) のパラメータ

統計モデリングと推定プロセス

  • 得られた応答変数の分布に従って、適切な確率分布 \(P(θ)\) を選ぶ
  • 適切な説明変数 \(x\) を選ぶ
  • 両者の関係を \(f(x|β)\) で記述する
  • \(β\) はデータにモデルを当てはめるためのパラメータ(回帰分析なら回帰係数に相当)
  • \(β\) は目的やモデルの複雑さに応じて最尤推定法やマルコフ連鎖モンテカルロ法 (MCMC)などを用いてアルゴリズムによって決める
  • \(f(x|β)\) というモデルの下で、観測したデータ \(x\) から観測したデータ \(y\) を最も高い確率で生成できるようにパラメータ \(β\) を求める

確率分布 \(P(θ)\) の選び方

  • 得られた応答変数の分布に従って、適切な確率分布 \(P(θ)\) を選ぶ
  • 応答変数のヒストグラムを描いてみる
    → 分析しようとしている応答変数がどのように生成されたかを考える
    → 採用すべき分布を決める

1.2 ベルヌーイ分布

ベルヌーイ試行(Bernoulli Distributuio)

  • 1 回の試行で 2 種類のどちらかの事象しか起こらない試行のこと
試行の種類
コインを投げて表がでるか? ベルヌーイ試行(表 or 裏)
サイコロを投げて奇数がでるか? ベルヌーイ試行(奇数 or 偶数)
サイコロを投げて 1 の目がでるか? ベルヌーイ試行(1 or その他)
サイコロを投げてどの目がでるか? ベルヌーイ試行ではない(1, 2, 3,…, or 6)
  • ある事象が起こるか (x = 1) 起こらないか (x = 0) の確率をモデル化する \[Bernoulli(x|p) = p^x(1-p)^{(1-x)}\]

  • \(p\)\(x = 1\) になる確率

  • \(x\) がベルヌーイ分布に従うとき、次のように表記する
    \[x 〜Bernoulli\]

  • 平均は \(p\)

  • 分散は \(p(1-p)\)

  • 標準偏差は \({\sqrt{p(1-p)}}\)

事例

  1. 選挙に当選した(x = 1)、落選した(x = 0
  2. ある商品を買う(x = 1)、買わない(x = 0

1.3 二項分布

二項分布 (Binomial Distributuio)
- 互いに独立したベルヌーイ試行(成功確率 = P、失敗確率 = 1 - p)を n 回行った時の成功回数に関する離散確率分布
- 一般的に「二項分布」は「ベルヌーイ分布」と同意語で使われる
- 「二項分布」の方が良く使われる
- 二項分布は次の確率関数で表す

\[P(X = k) = _nC_kp^k(1-p)^{n-k}\]
p: 成功確率 (0 ≦ p ≦ 1)
n: 試行回数
k: 成功回数

  • この式は「成功確率 p の試行を n 回実行した時に k 回成功する確率」を表す

  • nCkn 個から k 個を選ぶ組み合わせの数のことで、次の式で求めることができる

\[_nC_k = \frac{n!}{k!(n-k)!}\]

  • ある確率変数 X が二項分布 B(n,p) に従う場合次のように表す

\[X 〜 B(n, p)\]

2. 二項分布の実例(サッカー PK)

2.1 キックの回数ごとに PK が決まる確率

  • ゴール成功率が 90% の PK 戦で、3 回キックして 0 回ゴールする確率

p = 0.9: ゴールする確率
n = 3: 試行回数
k = 0: ゴールする回数

  • 3 回キックして「0 回ゴールする」という組み合わせ \(_3C_0\) は次の 1 通り
1回目 2回目 3回目 1回目〜3回目の組み合わせが起こる確率
× × × 1 x 0.1 x 0.1 x 0.1 = 0.001
  • (2) の式にn = 3, k = 0 を代入する

\[_3C_0 = \frac{3!}{0!(3-0)!}= \frac{3!}{3!} = 1\]

  • (1) の式に \(_3C_0 = 1\), n = 3, k = 0, p = 0.9 を代入する

\[P(X = 0) = 1 x 0.9^0(0.1)^{3} = (0.1)^{3}\] \[= 0.001 ・・・(0.1パーセント)\]

  • ゴール成功率が 90% の PK 戦で、3 回キックして 1 回ゴールする確率

p = 0.9: ゴールする確率
n = 3: 試行回数
k = 1: ゴールする回数

  • 3 回キックして「1 回ゴールする」という組み合わせ \(_3C_1\) は次の 3 通り
1回目 2回目 3回目 1回目〜3回目の組み合わせが起こる確率
ゴール × × 0.9 x 0.1 x 0.1
× ゴール × 0.1 x 0.9 x 0.1
× × ゴール 0.1 x 0.1 x 0.9
3 x 0.9 x 0.1 x 0.1 = 0.027
  • (2) の式にn = 3, k = 1 を代入する

\[_3C_1 = \frac{3!}{1!(3-1)!}= \frac{3!}{2!} = 3\]

  • (1) の式に \(_3C_1 = 3\), n = 3, k = 1, p = 0.9 を代入する

\[P(X = 1) = 3 x 0.9^1(0.1)^{2} = (0.1)^{3}\] \[= 0.027 ・・・(2.7パーセント)\]

  • ゴール成功率が 90% の PK 戦で、3 回キックして 2 回ゴールする確率は
    p = 0.9: ゴールする確率
    n = 3: 試行回数
    k = 2: ゴールする回数

  • 3 回キックして「2 回ゴールする」という組み合わせ \(_3C_2\) は次の 3 通り

1回目 2回目 3回目 1回目〜3回目の組み合わせが起こる確率
ゴール ゴール × 0.9 x 0.9 x 0.1
ゴール × ゴール 0.9 x 0.1 x 0.9
× ゴール ゴール 0.1 x 0.9 x 0.9
3・0.9 x 0.9 x 0.1= 0.729
  • 次の式に k = 2, n = 3, p = 0.9 を代入して表が出る確率を計算する
    \[P(X = k) = _nC_kp^k(1-p)^{n-k} ・・・・(1)\]

\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]

  • (2) の式にn = 3, k = 2 を代入する

\[_3C_2 = \frac{3!}{2!(3-2)!}= \frac{3!}{2!} = 3\]

  • (1) の式に \(_3C_2 = 3\), n = 3, k = 2, p = 0.9 を代入する

\[P(X = 2) = 3 x 0.9^2(0.1)^1 = 0.243\] \[= 0.243 ・・・(24.3パーセント)\]

  • ゴール成功率が 90% の PK 戦で、3 回キックして 3 回ゴールする確率

p = 0.9: ゴールする確率
n = 3: 試行回数
k = 3: ゴールする回数

  • 3 回キックして「3 回ゴールする」という組み合わせ \(_3C_3\) は次の 1 通り
1回目 2回目 3回目 1回目〜3回目の組み合わせが起こる確率
ゴール ゴール ゴール 10.9 x 0.9 x 0.9 = 0.729
  • 次の式に k = 3, n = 3, p = 0.9 を代入して表が出る確率を計算する
    \[P(X = k) = _nC_kp^k(1-p)^{n-k} ・・・・(1)\]

\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]

  • (2) の式にn = 3, k = 3 を代入する

\[_3C_3 = \frac{3!}{3!(3-3)!}= \frac{3!}{3!} = 1\]

  • (1) の式に \(_3C_3 = 1\), n = 3, k = 3, p = 0.9 を代入する

\[P(X = 3) = 1 x 0.9^3(0.1)^{0} = (0.9)^{3}\] \[= 0.729 ・・・(72.9パーセント)\]

  • まとめ
ゴールする回数 0回 1回 2回 3回 合計
ゴールする確率 0.1 2.7 24.3 72.9 100%

2.2 R を使った確率の計算(結果の確認)

  • ここまでの結果を R を使って計算してみる

成功率が 90% の PK 戦で、3 回キックして 0 回ゴールする確率

p = 0.9: ゴールする確率
n = 3: 試行回数
k = 0: ゴールする回数
\(_3C_0\) の計算

factorial(3) / (factorial(0)*factorial(3-0))
[1] 1

\(P(X = 0)\) の計算

\[_3C_0(0.9)^3(1-0.9)^{3-0}\]

1*(0.9)^0*(1-0.9)^3
[1] 0.001
  • 成功率が 90% の PK 戦で、3 回キックして 1 回ゴールする確率

p = 0.9: ゴールする確率
n = 3: 試行回数
k = 1: ゴールする回数
\(_3C_1\) の計算

factorial(3) / (factorial(1)*factorial(3-1))
[1] 3

\(P(X = 1)\) の計算

\[_3C_1(0.9)^2(1-0.9)^{3-1}\]

3*(0.9)^1*(1-0.9)^2
[1] 0.027
  • 成功率が 90% の PK 戦で、3 回キックして 2 回ゴールする確率

p = 0.9: ゴールする確率
n = 3: 試行回数
k = 2: ゴールする回数
\(_3C_2\) の計算

factorial(3) / (factorial(2)*factorial(3-2))
[1] 3

\(P(X = 2)\) の計算

\[_3C_2(0.9)^2(1-0.9)^{3-2}\]

3*(0.9)^2*(1-0.9)^1
[1] 0.243
  • 成功率が 90% の PK 戦で、3 回キックして 3 回ゴールする確率

p = 0.9: ゴールする確率
n = 3: 試行回数
k = 3: ゴールする回数
\(_3C_3\) の計算

factorial(3) / (factorial(3)*factorial(3-3))
[1] 1

\(P(X = 3)\) の計算

\[_3C_3(0.9)^3(1-0.9)^{3-3}\]

1*(0.9)^3*(1-0.9)^0
[1] 0.729

2.3 Exercise_PK

1993年から2013年までの 20 シーズンで、J1 においては 1228 本の PK が与えられ、うち 947 本が成功している(出典:ウィキペディア)。平均的な J1 の選手が 4 回キックしてゴールする確率をゴール回数ごとに求め、次の表を完成させなさい。

ゴールする回数 0回 1回 2回 3回 4回 合計
ゴールする確率 ? ? ? ? ? 合計

3. 二項分布の実例(コイントス)

3.1 コイントスの回数ごとに表が出る確率

  • 50% の確率で表が出るコインを 4 回投げた時に、表が出る確率の分布を考えてみる  

表が出る確率(コインの表が出る回数 k ごと)

p: 表が出る確率 (0 ≦ p ≦ 1)
n: 試行回数
k: 表が出る回数

  • k = 0, 1, 2, 3, 4 それぞれの場合における確率を計算する
  • 求めたいのは次の確率

\(P(X = 0)\)・・・表が 0 回出る確率
\(P(X = 1)\)・・・表が 1 回出る確率
\(P(X = 2)\)・・・表が 2 回出る確率
\(P(X = 3)\)・・・表が 3 回出る確率
\(P(X = 4)\)・・・表が 4 回出る確率

k: 表が出る回数  0回 1回 2回 3回 4回
表がでる確率 P(X = k)  ? ? ? ? ?
  • コインを 4 回投げた時に、表が 1 回も出ない確率 (k = 0)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 0: 表が出る回数

  • コインを 4 回投げて「表が 1 回も出ない」という組み合わせ \(_4C_0\) は次の 1 通り
1回目 2回目 3回目 4回目 1回目〜4回目の組み合わせが起こる確率
= 1 x 0.5 x 0.5 x 0.5 x 0.5 = 0.0625
  • 次の式に n = 4, k = 0, p = 0.5 を代入して表が出る確率を計算できる
    \[P(X = k) = _nC_kp^k(1-p)^{n-k} ・・・・(1)\]

\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]

  • (2) の式にn = 4, k = 0 を代入する

\[_4C_0 = \frac{4!}{0!(4-0)!}= \frac{4!}{4!} = 1\]

  • (1) の式に \(_4C_0 = 1\), n = 4, k = 0, p = 0.5 を代入する

\[P(X = 0) = 1 x 0.5^0(1-0.5)^{4-0}\] \[= (0.5)^{4} = 0.0625 ・・・(6.25パーセント)\]

  • コインを 4 回投げた時に、表が 1 回出る確率 (k = 1)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 1: 表が出る回数

  • コインを 4 回投げて「表が 1 回出る」という組み合わせ \(_4C_1\) は次の 4 通り
1回目 2回目 3回目 4回目 1回目〜4回目の組み合わせが起こる確率
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
4 x (0.5 x 0.5 x 0.5 x 0.5) = 0.25
  • (2) の式にn = 4, k = 1 を代入する

\[_4C_1 = \frac{4!}{1!(4-1)!}= \frac{4!}{3!} = 4\]

  • (1) の式に \(_4C_1 = 4\), n = 4, k = 1, p = 0.5 を代入する

\[P(X = 1) = 4 x 0.5^1(1-0.5)^{4-1}\] \[= 2・(0.5)^3 = 0.25 ・・・(25パーセント)\]

  • コインを 4 回投げた時に、表が 2 回出る確率 (k = 2)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 2: 表が出る回数

  • コインを 4 回投げて「表が 2 回出る」という組み合わせ \(_4C_2\) は次の 6 通り
1回目 2回目 3回目 4回目 1回目〜4回目の組み合わせが起こる確率
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
6 x (0.5 x 0.5 x 0.5 x 0.5 x 0.5 x 0.5) = 0.375
  • (2) の式にn = 4, k = 2 を代入する

\[_4C_2 = \frac{4!}{2!(4-2)!}= \frac{4!}{2!2!} = 6\]

  • (1) の式に \(_4C_2 = 6\), n = 4, k = 2, p = 0.5 を代入する

\[P(X = 2) = 6 x 0.5^2(1-0.5)^{4-2}\] \[= 6・(0.5)^4 = 0.375 ・・・(37.5パーセント)\]

  • コインを 4 回投げた時に、表が 3 回出る確率 (k = 3)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 3: 表が出る回数

  • コインを 4 回投げて「表が 3 回出る」という組み合わせ \(_4C_3\) は次の 4 通り
1回目 2回目 3回目 4回目 1回目〜4回目の組み合わせが起こる確率
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
= 0.5 x 0.5 x 0.5 x 0.5
4 x (0.5 x 0.5 x 0.5 x 0.5) = 0.25
  • (2) の式にn = 4, k = 3 を代入する

\[_4C_3 = \frac{4!}{3!(4-3)!}= \frac{4!}{3!} = 4\]

  • (1) の式に \(_4C_3 = 4\), n = 4, k = 3, p = 0.5 を代入する

\[P(X = 3) = 4 x 0.5^3(1-0.5)^{4-3}\] \[= 4・(0.5)^4 = 0.25 ・・・(25パーセント)\]

  • コインを 4 回投げた時に、表が 4 回出る確率 (k = 4)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 4: 表が出る回数

  • コインを 4 回投げて「表が 4 回出る」という組み合わせ \(_4C_4\) は次の 1 通り
1回目 2回目 3回目 4回目 1回目〜4回目の組み合わせが起こる確率
= 1 x 0.5 x 0.5 x 0.5 x 0.5 = 0.0625
  • (2) の式にn = 4, k = 4 を代入する

\[_4C_4 = \frac{4!}{4!(4-4)!}= \frac{4!}{4!} = 1\]

  • (1) の式に \(_4C_4 = 1\), n = 4, k = 4, p = 0.5 を代入する

\[P(X = 4) = 1 x 0.5^4(1-0.5)^{4-4}\] \[= 1・(0.5)^4 = 0.0625 ・・・(6.25パーセント)\]

  • まとめ  
k の値 0回 1回 2回 3回 4回 合計
表がでる確率 6.25 25 37.5 25 6.25 100%

3.2 Rを使った確率の計算(結果の確認)

  • ここまでの結果を R を使って計算してみる

  • コインを 4 回投げた時に、表が 0 回出る確率 (k = 0)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 0: 表が出る回数

\(_4C_0\) の計算

factorial(4) / (factorial(0)*factorial(4-0))
[1] 1

\(P(X = 0)\) の計算

\[_4C_0(0.5)^0(1-0.5)^{4-0}\]

1*(0.5)^0*(1-0.5)^4
[1] 0.0625
  • コインを 4 回投げた時に、表が 1 回出る確率 (k = 1)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 1: 表が出る回数
\(_4C_1\) の計算

factorial(4) / (factorial(1)*factorial(4-1))
[1] 4

\(P(X = 1)\) の計算

\[_4C_1(0.5)^1(1-0.5)^{4-1}\]

4*(0.5)^1*(1-0.5)^3
[1] 0.25
  • コインを 4 回投げた時に、表が 2 回出る確率 (k = 2)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 2: 表が出る回数
\(_4C_2\) の計算

factorial(4) / (factorial(2)*factorial(4-2))
[1] 6

\(P(X = 2)\) の計算

\[_4C_2(0.5)^2(1-0.5)^{4-2}\]

6*(0.5)^2*(1-0.5)^2
[1] 0.375
  • コインを 4 回投げた時に、表が 3 回出る確率 (k = 3)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 3: 表が出る回数
\(_4C_3\) の計算

factorial(4) / (factorial(3)*factorial(4-3))
[1] 4

\(P(X = 3)\) の計算

\[_4C_3(0.5)^3(1-0.5)^{4-3}\]

4*(0.5)^3*(1-0.5)^1
[1] 0.25
  • コインを 4 回投げた時に、表が 4 回出る確率 (k = 4)

p = 0.5: 表が出る確率
n = 4: 試行回数
k = 4: 表が出る回数
\(_4C_4\) の計算

factorial(4) / (factorial(4)*factorial(4-4))
[1] 1

\(P(X = 4)\) の計算

\[_4C_4(0.5)^4(1-0.5)^{4-4}\]

1*(0.5)^4*(1-0.5)^0
[1] 0.0625

3.3 Exercise_Cointoss

  • 70% の確率で表が出るコインを 4 回投げた時に、表が 0 回〜 4 回出る確率 \(P(X=0), P(X=1), P(X=3), P(X=4)\) を R を使って計算し次の表を完成させなさい
表が出る回数 0回 1回 2回 3回 4回 合計
表が出る確率 ? ? ? ? ? 100%

4.二項分布の近似化

4.1 二項分布の期待値(平均)

二項分布の期待値(平均)\(E(X) = np\) 二項分布 \(B(n,p)\) に従う確率変数 \(X\) の期待値 \(E(X) = np\)

  • 50% の確率で表が出るコインを 2 回投げたら平均的には何回表がでるか?
    → 期待値を計算する

\[np = 2・0.5 = 1\]
→ 50% の確率で表が出るコインを 2 回投げたら平均的には 1 回表がでる

  • 50% の確率で表が出るコインを 4 回投げた時の期待値は 2

\[np = 4・0.5 = 2\]

  • 下は、50% の確率で表が出るコインを 4 回投げた時に、表が出る確率分布
k の値 0回 1回 2回 3回 4回 合計
表がでる確率 6.25 25 37.5 25 6.25 100%
  • ここからも、2 の目が出る確率が最も高いことがわかる

4.2 二項分布の分散

二項分布の分散 \(V(X) = np(1-p)\) 二項分布 \(B(n,p)\) に従う確率変数 \(X\) の分散 \(V(X) = np(1-p)\)
- 標準偏差・・・\({\sqrt{np(1-p)}}\)

  • 50% の確率で表が出るコインを 4 回投げた時の分散は次のとおり

\[V(X) = np(1-p) = 4 x 0.5・0.5 = 1\]

4.3 二項分布の問題点

  • 試行回数 \(n\) が数百回、数千回になった時の計算が大変

  • 例)サイコロを 100回投げた時に 1 の目が何回出るか?
  • 普通のサイコロなら 1 が出る確率は 1/6  → p = 1/6, n = 100
  • 期待値を求めてみる

\[E(X) = np = 100 x (1/6) = 16.666...\]

→ 50% の確率で表が出るコインを 100 回投げたら平均的には 16.7 回程度表出ると「期待」される
→ しかし、試行の結果(例えば、20回表が出たとする)がどの程度レアなケースなのか分からない
→ 試しに、二項分布の確率関数を使って「20回表が出る確率」を計算してみる

  • 20回表が出た場合の確率

  • 次の式に n = 100, k = 20, p = 1/6 を代入して表が出る確率を計算する
    \[P(X = k) = _nC_kp^k(1-p)^{n-k} ・・・・(1)\]

\[_nC_k = \frac{n!}{k!(n-k)!}・・・(2)\]

  • (2) の式にn = 100, k = 20 を代入する

\[[_{100}C_{20} = \frac{100!}{20!(100-20)!}= \frac{100!}{20!・80!} = \frac{100・99・...・81}{20!}\]

  • (1) の式に \(_{100}C_{20}\)の値, n = 100, k = 20, p = 1/6 を代入する

\[P(X = 20) = _{100}C_{20}・(1/6)^{20}・(1-1/6)^{80} = 0.067862\]

4.4 R による P(X=20) の計算方法

  • \(_{100}C_{20}\)の計算
factorial(100) / (factorial(20)*factorial(100-20))
[1] 5.359834e+20
  • この値と k = 20, n = 100, p = 0.5 を (1) に代入する

\[P(X = 20) = _{100}C_{20}(1/6)^{20}(1-1/6)^{100-20}\]

(5.359834e+20)*(1/6)^20*(1-1/6)^80
[1] 0.067862
  • 100回サイコロを振って 20 回 1 の目が出る確率は 6.78%

  • R を使えば計算できるが、かなり大変(^_^;)

解決策: 二項分布を「正規分布」に近似させる

4.5 二項分布を正規分布に近似させる

正規分布による近似 - 二項分布は分散 \(\sqrt{np(1-p)}\) が十分に大きければ、平均 \(μ\), 分散 \(σ^2\) の正規分布に近似できる(正規近似=ラプラスの定理)

「正規分布に近似できる」というのは「平均との差が標準偏差で何個分かという基準で確率を求めることができるということ」

具体的な計算方法

  • サイコロを100回投げたときに、1の目が出る回数を確率変数 \(X\) とすると、確率変数 \(X\) は二項分布 \(B(100, 1/6)\) に従う

\[平均:μ = E(X) = np = 100・1/6 = 16.66\]
\[分散:σ^2 = V(X) = np(1-p) = 100・1/6・5/6 = 18.88\]
\[標準偏差:σ = \sqrt{np(1-p)} = 100・1/6・5/6 =4.35\]

二項分布 \(B(100, 1/6)\) は、平均 18.88、標準偏差 4.35の正規分布に近似できる

範囲 出現確率 サイコロの目の範囲
平均 ±1 標準偏差 約68% 14〜23回 20回 1 の目が出るケースはよくある
平均 ±2 標準偏差 約95% 10〜27回 28回 1 の目が出るケースは珍しい
平均 ±3 標準偏差 約99% 6〜32回 33回以上 1 の目が出るケースはかなり珍しい

「100回サイコロを投げたときに 1 の目が出る回数」は
約 68%の確率で 14〜23回におさまり
約 95%の確率で 10〜27回におさまり
約 99%の確率で 6〜32回におさまる

結論 「50% の確率で表が出るコインを 100 回投げたら 1 の目が 20回出た」という事実は「よくあるケース」だといえる

  • 正規分布による近似における 3 つの基準は次のとおり

正規分布による近似における 3 つの基準 (1) \(min(np,n(1−p))>10\)
(2) \(0.1≤p≤0.9\) かつ \(np(1−p)>25\)
(3) \(np(1−p)>25\)

  • この基準に従ってこのケースを検討してみる
基準 実際の数値 評価
(1) \(min(np,n(1−p))>10\) \(np = n(1-p) = 50\) 条件を満たす
(2) \(0.1≤p≤0.9\) かつ \(np(1−p)>25\) \(p=0.5\) かつ \(np(1−p)=18.88\) 条件を満たす
(3) \(np(1−p)>25\) \(np(1−p)=18.88\) 条件を満たさず
  • 最も条件が厳しい (3) の条件以外 (1) と (2) は満たしている

→ 比較的高い精度で二項分布を正規分布に近似できたといえる

参考文献