library(DT)
library(plyr)
library(reactable)
library(tidyverse)
library(glpkAPI)
library(psych)
library(irtoys)
library(ltm)
library(plink)
7. IRT による等化
等化 (equating) とは
- 2
つの尺度について、どちらか一方の尺度に、他方の尺度の0点の位置や目盛の幅を与えること
→ どちらか一方の尺度に他方の尺度の「原点」と「単位」を与えること
- 2 つの尺度「華氏温度 \(F\)」と「摂氏温度 \(C\)」に関す変換式を求めること
7.1 線形変換
IRT を使うと次の 2 つのことが可能になる
・テストに用いた項目に依存せずに、項目パラメタを推定できる
→ 異なる問題から構成されるテスト結果を互いに比較できる
・テストを受けた受験者集団に依存せずに、項目パラメタを推定できる
→ 異なる集団から得られたテスト結果を互いに比較できる
- 毎年4月に、新入生を対象として実力テストを実施していると仮定
- 昨年実施したテストが X、今年実施したテストが Y
- 昨年の実職テストを IRT の 2
パラメーター・ロジスティック・モデルで分析
→ 分析から得られた「困難度のものさし」 = 尺度\(\theta_x\)
- テスト X に出題した項目:\(x1, x2, ....,
x10\)
テスト X から得られた困難度の尺度\(\theta_x\)
- 今年の実職テストを IRT の 2
パラメーター・ロジスティック・モデルで分析
→ 分析から得られた「困難度のものさし」 = 尺度\(\theta_y\)
- テスト X に出題した項目:\(y1, y2, ....,
y10\)
テスト y から得られた困難度の尺度\(\theta_y\)
- 尺度\(\theta_x\) と 尺度\(\theta_y\) を比較すると
→ 尺度\(\theta_y\)
の方が困難度が大きいから、問題が難しいのでは?
→ しかし、必ずしもそうとはいえない
その理由 → 尺度\(\theta_x\) と
尺度\(\theta_y\)
は目盛は同じだが、同じ意味ではないから
- 例えば、尺度\(\theta_x\) の x2
と尺度\(\theta_y\) の y7
はそれぞれの目盛りでほとんど同じ位置にある
- しかし、x2 と y7 は同じくらい難しい項目だとはいえない
- 2 つのテスト結果を同一の尺度に統一すれば
→ 2つの異なる集団から得られたテスト結果を互いに比較できる
→ 線形変換
線形変換
- 変換したいものに(ここでは \(\theta_y\))、ある定数をかけたり足したりして、他の尺度(ここでは
\(\theta_x\))に変換すること
- 線形変換することで、尺度\(\theta_y\)上に並べた項目 (\(y1,...,y10\)) を尺度\(\theta_x\) 上に並べることができる
→ 等化
- テスト X を受験した学力\(\theta_x\)
の人も、テスト Y を受験した学力\(\theta_y\) の人も、どちらも学力\(\theta_x\)で表すことができるようになった
共通尺度とは
- ここでは 学力\(\theta_x\)
のこと
- 等化された項目の困難度や受験者の学力\(\theta\)を表す尺度のこと
7.2 等化デザイン
- 等化をするためには、等化するテスト間に共通の情報が必要
- 共通の情報を何に使うかによって、2 つの等化デザインがある
等化デザインの種類 |
共通するもの |
共通項目デザイン |
項目 |
共通受験者デザイン |
受験者 |
|
|

7.3.1 共通項目デザイン
- 共通した項目のパラメーターの値を利用して等化する方法
- 等化するテスト間で共通の項目 X6,…,x10 を出題する
- テストAとテストBに共通する5つの項目 (x6,…, x10) を出題
- テストAでは A1,…,A5 と x6,…,
x10 の計10の項目を出題
- テストBでは B1,…,B5 と x6,…,
x10 の計10の項目を出題
- テストAとテストBを異なる受験者集団に対して実施する
- テスト結果を IRTの
2パラメーター・ロジスティック・モデルを使って分析
- テストAを IRT分析して得られた「ものさし」・・・尺度\(\theta_A\)
- テストBを IRT分析して得られた「ものさし」・・・尺度\(\theta_B\)
- テストAに出題した項目を、困難度の値によって尺度\(\theta_A\) に並べると
テスト B をテスト A に等化する
- 尺度\(\theta_B\)
で表された困難度の値を、尺度\(\theta_A\) で表すこと
- テストAとテストBに共通する5つの項目x6,…,
x10よりもテストAでのみ出題された5つの項目(A1,…,A5)の方が簡単
- テストAとテストBに共通する5つの項目x6,…,
x10よりもテストBでのみ出題された5つの項目(B1,…,B5)の方が簡単
以下の 2 つの困難度の値は異なる
・尺度\(\theta_A\) で表された x6〜x10
の困難度の値
・尺度\(\theta_B\) で表された x6〜x10
の困難度の値
・同じ項目(例えば
x10)であれば、項目の「困難度の程度」を表すという点では同じ意味
→ 同じ温度でも摂氏と華氏とでは数値が異なることと同様
\[華氏 = 1.8×摂氏+32\]
・どちらも気温を表しているが、数値が異なるだけ
・摂氏が学力\(\theta_A\)、華氏が力\(\theta_B\)に相当
「テストBをテストAに等化する方法」は「摂氏を華氏に変換する方法」と似ている
困難度の変換
・摂氏を華氏に変換するのと同様、「尺度\(\theta_B\)
で表された困難度」は次の式で「尺度\(\theta_A\)
で表された困難度」に変換できる
\[尺度\theta_A で表された困難度=\]
\[(定数1)×尺度\theta_Bで表された困難度+(定数2)\]
- (定数1)と(定数2)を計算する方法・・・Mean & Sigma法
- (定数1)と(定数2)が計算できれば
→ テストBで出題された項目B1,…, B10の困難度を、尺度\(\theta_A\) で表せる
- 項目B1〜B5
の困難度の値を変換 → テストAの尺度\(\theta_A\) 上に配置
識別力の変換
\[尺度\theta_A で表された識別力=\]
\[尺度\theta_Bで表された識別力÷(定数1)\]
受験者の学力\(\theta\)
- テストAの受験者の学力\(\theta\)・・・もともと尺度\(\theta_A\) で表す
- テストBの受験者の学力\(\theta\)・・・等化されたテストBの項目パラメーターで表された項目特性を使って学力\(\theta\) を推定する
→ テストAとテストBの受験者の学力\(\theta\)はどちらも尺度\(\theta_A\) で表すことができる
→ テストBの受験者の学力\(\theta\)が等化された
7.3.2 共通受験者デザイン
- 共通した受験者のパラメーターの値を利用して等化する方法
- テストCとテストDには、全く別の項目が出題
- テストCでは C1,…,C10の10個の項目を出題
- テストDでは D1,…,D10の10個の項目を出題
- 共通の受験者が、テストCとテストDをほぼ同時に受験する
- テストCの結果をIRT分析・・・尺度\(\theta_C\)を得る
- テストDの結果をIRT分析・・・尺度\(\theta_D\)を得る
- 二つのものさし(尺度\(\theta_C\)
と尺度\(\theta_D\))は異なる
→ 同じ受験者であっても、それぞれのものさしで表される学力\(\theta\) の値は異なる
- しかし、同じ受験者の学力\(\theta\)なら、値は異なっても、同じ学力を意味する
→ 下の式を使って、学力を変換できる
\[尺度\theta_Cでの学力\theta=\]
\[(定数1)×尺度 \theta_D で表された学力
\theta +(定数2)\]
- IRTに使うテストでは、必ず過去問題が使われるわけではない
- テストに出題される問題が全て新規作成でも(=等化されていなくても)
→ 共通受験者デザインを使えば、IRTによる等化は可能
異なる2つの全国テストを受けた受験生の学力比較
- 例えば、4月に実施した全国テスト1と10月に実施した全国テスト2の受験生の学力を比較することを考える
比較方法 |
内容 |
ナイーブな直接比較 |
全国テスト1と全国テスト2の得点をそのまま比較 |
等化を経た比較 |
等化された共通尺度θxを使って全国テストを比較 |
|
|
ナイーブな直接比較の問題点
- 全国テスト1と2は異なるテスト
→ 得点の意味が異なる(例:50点が同じ学力を示すとは限らない)
- 同じ尺度で測られていないテストを比べると
→ 学力の成長や差異を正しく把握できない
- 例えるなら、4月の体重をkg単位で測り、10月の体重をポンド単位で測り
- 変化をそのまま比較するようなもの(単位が違う)
解決策:
- 2つの全国テストとほぼ同時期に、等化済みの共通尺度をもつ2つのテストを受ければ可能
集団 |
実施時期 |
実施テスト |
等化済みの共通尺度 |
集団A |
4月 |
全国テスト1、テスト1 |
θx(テスト1とテスト2) |
集団B |
10月 |
全国テスト2、テスト2 |
θx(テスト1とテスト2) |
|
|
|
|
- 全国テスト1と全国テスト2の直接の等化情報はない
- しかし、テスト1とテスト2が共通尺度θxで等化されていれば
→ テスト1の得点もテスト2の得点もθxという同じ尺度で表現可能
- 全国テスト1を受けた集団Aはテスト1も受けている
→ 全国テスト1の得点をθxに変換できる
全国テスト2を受けた集団Bはテスト2も受けている
→ 全国テスト2の得点をθxに変換できる
結果として
→ 全国テスト1(4月)と全国テスト2(10月)の得点を、共通尺度θxで等化可能
→ 学力の時点間比較(成長の可視化)ができる
テスト1とテスト2による等化を用いた比較の利点
共通尺度 θx による比較ができる
- テスト1とテスト2でIRT等化済み
→ 全国テスト1・2の得点を同じθx上にマッピングできる
テストの難易度や尺度の違いを補正できる
- テスト間の構成や困難度の違いをIRTモデルで補正できる
→ 純粋に学力の違い・成長を測定可能
項目反応理論による学力推定ができる
- 単なる合計得点ではなく、項目特性(識別力・困難度)を考慮したθ推定ができる
- 例:難しい問題に正答した生徒は、同じ得点でもより高いθと評価される
時間軸をまたいだ比較が可能
- 「4月の全国テスト1」と「10月の全国テスト2」でも、θxが共通なので成長や差異を妥当な形で比較可能
まとめ
・「全国テスト1と2だけを受けた生徒」の得点比較は、テスト構造や尺度の違いの影響を受けやすく、信頼性に欠ける
・テスト1・2を介してIRT等化された尺度θxを使えば、「異なる時点・異なるテスト」の結果も、共通の学力指標で直接比較できる
7.3 等化の条件
等化の条件
1. 各尺度が同一の構成概念を測定している。
2. 変換に対称性がある。
3. 2つの尺度の信頼性が等しい。
4. θによる素点の条件付き分布が両尺度で等しい。
5. どの集団において等化を行っても変換は不変。
(出典:加藤建太郎他『Rによる項目反応理論』p.257.