• このセクションで使う R パッケージ一覧
library(tidyverse)
library(patchwork)
  • 統計学は記述統計学 (descriptive statistics) と推測統計学 (inferential statistics) の二つに分類できる 

  • 記述統計学では、平均や分散(データの散らばり)などを使って、データの特徴を整理したり記述する 

  • 推測統計学では、母集団 (population) から標本 (sample) を無作為に抽出し、その標本によって得られた標本平均や不偏分散などの統計量を使って、母集団の母数(母平均や母分散)を検定し推定する 

  • 母集団の全てを調査すること・・・全数調査センサスまたは悉皆 [しっかい] 調査

  • しかし、現実的に全数調査を行うことが出来ないことが多い → 母集団の一部を切り取る(標本:サンプル)

  • 推測統計学の基本的な考えは、母集団からランダムに抽出した標本を増やし、無限に試行を繰り返せば、全体の一部である標本から、巨大で未知の母集団を推測できる、ということ(= 統計的推論)  

  • 推測統計学では、分析対象が確率分布すると考える 

  • ここでは推測統計学の基礎を演習する

1. 推定と検定

  • 母集団から無作為抽出された標本を使って、抽出元全体である母集団の特徴を推測する統計学を推測統計学 (inferential statistics) という 
  • 推測統計学は「推定」と「検定」に分類できる 

  • 推定 (estimation)・・・具体的な値を用いて「母集団の平均値は○○くらいだろう」と予想すること 
  1. 点推定・・・標本から判断して、具体的な母数の値を予想する  ex: 「早稲田大学全体で女子学生の平均身長は 160 cm くらいだろう
  2. 区間推定・・・標本から判断して(ある程度の幅を持った区間で)具体的な母数の値を予想する  ex: 「早稲田大学全体で女子学生の平均身長は 160 cm から 165 cm くらいだろう
  • 検定 (test)・・・母集団について述べた異なる 2 つの「仮説」のうちどちらかを採用すること

2. 母集団と標本

2.1 「標本数」と「標本サイズ」の違い

  • 母集団 (population): 明確に定義された分析対象
  • 標本 (sample): 母集団から抜き出される一部
  • 標本は母集団のミニチュア版

  • 推測統計学においては、標本サイズ (sample size) と標本数 (the number of samples) が混同されがちなので、十分注意が必要

  • 標本サイズ (sample size)・・・・・・・n で表す抽出した観測数のこと

  • 標本数 (the number of samples) ・・・ n 個の観測数で抽出した標本セット数

例:  

  • 矢内さんは人口328万人の郡山市に行って、東日本大震災に関して二つの標本をとった 
  • 標本 A では 1,000 人を対象に世論調査を実施し、標本 B では 2,000 人に対して世論調査を行った 

→ 標本数は 2(標本 A と標本 B)であり、標本サイズはそれぞれ 2,000 と 1,000 である    

母数と統計量:
推測統統計学では、母数 (parameter) と統計量 (statistic) とを明確に区別しているので注意が必要