z 検定と t 検定
z 検定
と t 検定
の関係z 検定
は正規分布を用いる統計学的検定法z 検定
を用いるために最も重要な前提条件z 検定
は、母集団が完全に既知の場合にのみ使われるz 検定
では前提条件が現実的ではないことが多いz 検定
の代わりにスチューデントの
t 検定
を用いるt 検定
を学ぶ前提として、標準正規分布、z 値
、z 分布
について学ぶscore
を作ってみるR
のrnorm() 関数
を使って、この母集団から分析で使うデータを生成してみるset.seed(1982) # 同一の結果を得るためにシードを設定
score <- rnorm(10000, # 10000人分の架空データを作成する
mean = 50, # 母集団の平均値 = 50
sd = 10) |> # 母集団の標準偏差 = 10
round(digits = 0) # 点数は小数点以下を切り捨て
st_id = seq(1:10000) # 学生の ID の作成
df <- tibble(score, st_id) # 作成した二つの変数を df に統合
df
の記述統計を表示[1] 9.975603
Min. 1st Qu. Median Mean 3rd Qu. Max.
16 43 50 50 57 87
Standardization
)score
を基準化
(Standardization
) するStandardization
) とは、試験点数
score
を z
値に変換すること・「正規分布」に変数変換を施した(=標準化した)後の
z
分布のこと
→ 「標準」正規分布
・標準化した z
分布(=「標準」正規分布)の特徴
1. 平均値は 0
2. 標準偏差は 1
3. 範囲は −4 から 4
「正規分布
(score
)」を「標準正規分布
(z 値
)」に変換する ・score
の平均値は
50 => z
値の平均値は 0
・score
の標準偏差は 10 => z
値の標準偏差は 1
・score
の範囲は16点から87点 => z
値の範囲は −4 から 4
基準化 (Standardization
)
するための式 \[z =
\frac{個々のデータ−平均}{標準偏差}\]
score
の 30点を z
値に変換してみる[1] -2
score
の 30点は z
値の -2
に相当することがわかるz
値は 0 になるscore
は標準正規分布に従う
z = 1.00
」と「0.00
」が交差する値「0.3413
」の意味標準正規分布と標準偏差 (\(\sigma\))の関係: 1 標準偏差の場合
・確率変数 \(X\) が \(N(μ, σ^2)\) に従う時
→ つまり「平均値が \(μ\)、標準偏差が
\(\sigma\) 」に従う時
・平均 \(μ\)
からのずれが \(±1σ\)(± 1
標準偏差)の範囲に \(X\)
が含まれる確率:68.26%
z = 2.00
」と「0.00
」が交差する値「0.4772
」の意味標準正規分布と標準偏差 (\(\sigma\))の関係: 2 標準偏差の場合
・確率変数 \(X\) が \(N(μ, σ^2)\) に従う時
→ つまり「平均値が \(μ\)、標準偏差が
\(\sigma\) 」に従う時
・平均 \(μ\)
からのずれが \(±2σ\)(± 2
標準偏差)の範囲に \(X\)
が含まれる確率:95.44%
z = 3.00
」と「0.00
」が交差する値「0.4987
」の意味標準正規分布と標準偏差 (\(\sigma\))の関係: 3 標準偏差の場合
・確率変数 \(X\) が \(N(μ, σ^2)\) に従う時
→ つまり「平均値が \(μ\)、標準偏差が
\(\sigma\) 」に従う時
・平均 \(μ\) からのずれが \(±3σ\)(± 3 標準偏差)の範囲に \(X\) が含まれる確率:99.74%
標準正規分布と標準偏差 (\(\sigma\))の関係 ・確率変数 \(X\) が \(N(μ,
σ^2)\) に従う時
→ つまり「平均値が \(μ\)、標準偏差が
\(\sigma\) 」に従う時
・平均 \(μ\) からのずれが \(±1σ\)(± 1
標準偏差)の範囲に \(X\)
が含まれる確率:68.26%
・平均 \(μ\) からのずれが \(±2σ\)(± 2
標準偏差)の範囲に \(X\)
が含まれる確率:95.44%
・平均 \(μ\) からのずれが \(±3σ\)(± 3
標準偏差)の範囲に \(X\)
が含まれる確率:99.74%
z 分布
の平均値と標準偏差を次のように変更したもの平均値 | 標準偏差 | |
z分布 | 0 | 1 |
↓ | ↓ | |
偏差値 | 50 | 10 |
基準化 (Standardization
)
するための式 \[z =
\frac{個々のデータ−平均}{標準偏差}\]
偏差値を求める式 \[偏差値 = 10*\frac{個々のデータ−平均}{標準偏差}+ 50\]
(100 - 68.26) / 2 = 32/2 = 約16%
に含まれることになる(100 - 95.44) / 2 = 4.56/2 = 約2.28%
に含まれることになる(100 - 99.74) / 2 = 0.26/2 = 約0.13%
に含まれることになるt 検定
t 検定
を考え出した
William Sealy Gosset という元ギネスビール社員 student's t
という名前で論文を投稿したため、t
検定と呼ばれる degree of freedom
:
標本サイズから 1 を引いた値)が大きくなるにつれ \(t\) 検定の結果と \(z\)
検定の結果は近似していき、標本サイズが無限大だと、両分布は同一になる t 検定
」と有意水準t 検定
の手順
t 検定
の手順null hypothesis
): \(H_0\)
alternative hypothesis
): \(H_1\)
t
値を計算する
critical values
) を特定する
t
値が棄却域内かどうかを確かめる
具体的な検定プロセス
まず帰無仮説を設定する
帰無仮説とは「棄却されるために設定する仮説」
知りたいのは「サンプル平均は 5.5 だが、母集団の平均は 5
なのか」ということ
帰無仮説 \(H_0\)は「母平均 = 5」
次に対抗仮説を設定する
対抗仮説は「母平均は 5 ではない」
帰無仮説と対抗仮説は相互に排他的
(mutually exclusive
)
次に \(t\) 値を計算する
\(t\) 値は、次の式で求めることができる
\[T = \frac{\bar{x} - μ_0}{SE} = \frac{\bar{x} - μ_0}{u_x / \sqrt{n}}\]
\(\bar{x}\) : 標本平均(ここでは
5.5)
\(μ_0\) : 母集団で推定したい値(ここでは 5)
\(n\) : 標本サイズ(ここでは 10)
\(u_x\): 不偏標準偏差(= 標本標準偏差)
\(SE\) : 標準誤差
(standard Error: SE
)
不偏標準偏差\(u_x\) は不偏分散
(unbiased variance
)の平方根であるから、まず、不偏分散を求める
\(x\) の不偏分散 \(u_x^2\) は次の式で計算できる:
\[u_x^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1}\]
unbiased standard diviation
) \(u_x^2\) 3.03 が得られる ・母集団の平均は 5
なのかということを確かめたい
→ 母集団で推定したい値 \(μ\)に 5
を代入して、次の \(t\) 値を得る
\[T = \frac{\bar{x} - μ_0}{u_x / \sqrt{n}}\]
\[ = \frac{{5.5} - 5}{3.03 / \sqrt{10}}\]
\[ = 0.522\]
\[ t 分布表\]
\(t\)
分布表内の数値は、検定を行う際の有意水準
(significance leve
) に対応した棄却限界値を示している
標本から得られた \(t\)
値の絶対値が棄却限界値より大きい場合、帰無仮説を棄却する(両側検定の場合)
分布表の横軸は片側検定における有意水準を示している
例えば、二列目の「確率95%」は両側検定における有意水準が 5% \((α = 0.05)\) であることを示す
\(t\) 検定では両側検定で 5%
\((α = 0.05)\)
の有意水準を使うのが一般的
従って、 \(t\)
分布表二列目の「確率95%」を使う
分布表の一列目は自由度 (df: degree of freedom
)
を示している
ここでは「標本サイズ 10 から 1 を引いた 9」 が自由度
縦軸の 9 と横軸の「確率95%」交差する数字「2.262」が 5% の両側検定における棄却限界値
これを図示すると次のようになる
次の図は、自由度 9 の \(t\)
分布における 5% 有意水準\((α =
0.05)\)の 2 つの棄却限界値 (critical value
) -2.26
と 2.26 を示している
significance level
)type I error
)
と呼ばれる significance probability
) = \(p\) 値t 検定
One Sample t-test
data: score
t = 0.52223, df = 9, p-value = 0.6141
alternative hypothesis: true mean is not equal to 5
95 percent confidence interval:
3.334149 7.665851
sample estimates:
mean of x
5.5
p-value
が 0.6141 という結果が得られた p-value
= 0.6141 は、両側検定の p 値を表している alternative hypothesis: true mean is not equal to 5
と対抗仮説が明示されている p-value
(0.6141) が 0.05
より大きいので、帰無仮説(「母平均 = 5」)は棄却できない p-value
が 0.05 よりも小さければ 5% の有意水準(α
= 0.05)で帰無仮説を棄却できる
One Sample t-test
data: score
t = 2.6112, df = 9, p-value = 0.02822
alternative hypothesis: true mean is not equal to 3
95 percent confidence interval:
3.334149 7.665851
sample estimates:
mean of x
5.5
p-value
が 0.02822 という結果が得られた p-value
= 0.02822 は、両側検定の p 値を表している alternative hypothesis: true mean is not equal to 3
と対抗仮説が明示されている p-value
(0.02822) が 0.05
より小さいので、帰無仮説(「母平均 = 3」)は棄却できる conf.level
を指定する
One Sample t-test
data: score
t = 2.6112, df = 9, p-value = 0.02822
alternative hypothesis: true mean is not equal to 3
99 percent confidence interval:
2.388519 8.611481
sample estimates:
mean of x
5.5
p-value
が 0.02822 という結果が得られた p-value
= 0.02822 は、両側検定の p 値を表している alternative hypothesis: true mean is not equal to 3
と対抗仮説が明示されている p-value
(0.02822) が 0.01
より小さいので、帰無仮説(「母平均 = 3」)は棄却できる 内閣支持29%、不支持52%(NHK世論調査)記事
NHKの世論調査によりますと、菅内閣を「支持する」と答えた人は、先月より4ポイント下がって29%で、去年9月の内閣発足以降最低を更新しました。・・・調査の対象となったのは、2115人で、57%にあたる1214人から回答を得ました。2021年8月(8月10日更新)
1-sample proportions test with continuity correction
data: c(352) out of c(1214), null probability 0.5
X-squared = 213.41, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.2647212 0.3165265
sample estimates:
p
0.2899506
内閣支持率の 95%信頼区間は 26.47% ~ 31.66%
この調査で内閣支持率 29%という推定値を得たからといって「有権者全体における内閣支持率は 30%を切っている」とは 95% の確率ではいえない
仮に、菅内閣を「支持する」と答えたのが 352人ではなく300人だったとすると
1-sample proportions test with continuity correction
data: c(300) out of c(1214), null probability 0.5
X-squared = 309.53, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.2232793 0.2725771
sample estimates:
p
0.247117
22.33% ~ 27.26%
Q5.1:
「2. z 分布」
を参考にして、次の問題を解きなさい
Q5.2:
「2. z 分布」
を参考にして、次の問題を解きなさい
Q5.3:
「3. t 検定」
を参考にして、次の問題を解きなさい
\[45, 39, 42, 57, 28, 33, 40,
52(単位は万円)\]
・母集団では一日あたりの「ルオー」の売り上げが 50
万円である、という仮説を検定しなさい
Q5.4:
「3. t 検定」
を参考にして、次の問題を解きなさい
Q5.5:
「2. z 分布」
を参考にして、次の問題を解きなさい
・Q5.5.1: ある受験生が,75 点以上 85
点以下である確率を求めなさい
・Q5.5.2: この入学試験において,上位 10
%に入るためには,何点以上あればよいか?
・Q5.5.3: この入学試験において,上位 1000
人が合格する。合格するためには何点以上必要か?