• このセクションで使っている packages
library(DT)
library(plyr)
library(reactable)
library(tidyverse)
library(glpkAPI)
library(psych)
library(irtoys)
library(ltm)
library(plink)

7. IRT による等化

等化 (equating) とは

  • 2 つの尺度について、どちらか一方の尺度に、他方の尺度の0点の位置や目盛の幅を与えること
    → どちらか一方の尺度に他方の尺度の「原点」と「単位」を与えること
  • 2 つの尺度「華氏温度 \(F\)」と「摂氏温度 \(C\)」に関す変換式を求めること    

7.1 線形変換

IRT を使うと次の 2 つのことが可能になる ・テストに用いた項目に依存せずに、項目パラメタを推定できる
→ 異なる問題から構成されるテスト結果を互いに比較できる

・テストを受けた受験者集団に依存せずに、項目パラメタを推定できる
→ 異なる集団から得られたテスト結果を互いに比較できる

  • 毎年4月に、新入生を対象として実力テストを実施していると仮定
  • 昨年実施したテストが X、今年実施したテストが Y
  • 昨年の実職テストを IRT の 2 パラメーター・ロジスティック・モデルで分析
    → 分析から得られた「困難度のものさし」 = 尺度\(\theta_x\)
  • テスト X に出題した項目:\(x1, x2, ...., x10\)
テスト X から得られた困難度の尺度\(\theta_x\)

  • 今年の実職テストを IRT の 2 パラメーター・ロジスティック・モデルで分析
    → 分析から得られた「困難度のものさし」 = 尺度\(\theta_y\)
  • テスト X に出題した項目:\(y1, y2, ...., y10\)
テスト y から得られた困難度の尺度\(\theta_y\)

  • 尺度\(\theta_x\) と 尺度\(\theta_y\) を比較すると
    → 尺度\(\theta_y\) の方が困難度が大きいから、問題が難しいのでは?
    → しかし、必ずしもそうとはいえない
その理由 → 尺度\(\theta_x\) と 尺度\(\theta_y\) は目盛は同じだが、同じ意味ではないから
  • 例えば、尺度\(\theta_x\) の x2 と尺度\(\theta_y\) の y7 はそれぞれの目盛りでほとんど同じ位置にある
  • しかし、x2 と y7 は同じくらい難しい項目だとはいえない  

  • 2 つのテスト結果を同一の尺度に統一すれば
    → 2つの異なる集団から得られたテスト結果を互いに比較できる
    → 線形変換

線形変換

  • 変換したいものに(ここでは \(\theta_y\))、ある定数をかけたり足したりして、他の尺度(ここでは \(\theta_x\))に変換すること

  • 線形変換することで、尺度\(\theta_y\)上に並べた項目 (\(y1,...,y10\)) を尺度\(\theta_x\) 上に並べることができる
    → 等化
  • テスト X を受験した学力\(\theta_x\) の人も、テスト Y を受験した学力\(\theta_y\) の人も、どちらも学力\(\theta_x\)で表すことができるようになった

共通尺度とは

  • ここでは 学力\(\theta_x\) のこと
  • 等化された項目の困難度や受験者の学力\(\theta\)を表す尺度のこと

7.2 等化デザイン

  • 等化をするためには、等化するテスト間に共通の情報が必要
  • 共通の情報を何に使うかによって、2 つの等化デザインがある
等化デザインの種類 共通するもの
共通項目デザイン 項目
共通受験者デザイン 受験者

7.3.1 共通項目デザイン

  • 共通した項目のパラメーターの値を利用して等化する方法
  • 等化するテスト間で共通の項目 X6,…,x10 を出題する
  • テストAとテストBに共通する5つの項目 (x6,…, x10) を出題
  • テストAでは A1,…,A5 と x6,…, x10 の計10の項目を出題
  • テストBでは B1,…,B5 と x6,…, x10 の計10の項目を出題
  • テストAとテストBを異なる受験者集団に対して実施する
  • テスト結果を IRTの 2パラメーター・ロジスティック・モデルを使って分析
  • テストAを IRT分析して得られた「ものさし」・・・尺度\(\theta_A\)
  • テストBを IRT分析して得られた「ものさし」・・・尺度\(\theta_B\)
  • テストAに出題した項目を、困難度の値によって尺度\(\theta_A\) に並べると

テスト B をテスト A に等化する

  • 尺度\(\theta_B\) で表された困難度の値を、尺度\(\theta_A\) で表すこと

  • テストAとテストBに共通する5つの項目x6,…, x10よりもテストAでのみ出題された5つの項目(A1,…,A5)の方が簡単

  • テストAとテストBに共通する5つの項目x6,…, x10よりもテストBでのみ出題された5つの項目(B1,…,B5)の方が簡単

以下の 2 つの困難度の値は異なる

尺度\(\theta_A\) で表された x6〜x10 の困難度の値
尺度\(\theta_B\) で表された x6〜x10 の困難度の値
・同じ項目(例えば x10)であれば、項目の「困難度の程度」を表すという点では同じ意味

→ 同じ温度でも摂氏と華氏とでは数値が異なることと同様

\[華氏 = 1.8×摂氏+32\]

・どちらも気温を表しているが、数値が異なるだけ
・摂氏が学力\(\theta_A\)、華氏が力\(\theta_B\)に相当

「テストBをテストAに等化する方法」は「摂氏を華氏に変換する方法」と似ている

困難度の変換


・摂氏を華氏に変換するのと同様、「尺度\(\theta_B\) で表された困難度」は次の式で「尺度\(\theta_A\) で表された困難度」に変換できる

\[尺度\theta_A で表された困難度=\] \[(定数1)×尺度\theta_Bで表された困難度+(定数2)\]

  • (定数1)と(定数2)を計算する方法・・・Mean & Sigma法
  • (定数1)と(定数2)が計算できれば
    → テストBで出題された項目B1,…, B10の困難度を、尺度\(\theta_A\) で表せる
  • 項目B1〜B5 の困難度の値変換 → テストAの尺度\(\theta_A\) 上に配置

識別力の変換

  • 識別力は(定数1)を使って次のように変換できる

\[尺度\theta_A で表された識別力=\] \[尺度\theta_Bで表された識別力÷(定数1)\]

受験者の学力\(\theta\)

  • テストAの受験者の学力\(\theta\)・・・もともと尺度\(\theta_A\) で表す
  • テストBの受験者の学力\(\theta\)・・・等化されたテストBの項目パラメーターで表された項目特性を使って学力\(\theta\) を推定する
    → テストAとテストBの受験者の学力\(\theta\)はどちらも尺度\(\theta_A\) で表すことができる → テストBの受験者の学力\(\theta\)が等化された

7.3.2 共通受験者デザイン

  • 共通した受験者のパラメーターの値を利用して等化する方法
  • テストCとテストDには、全く別の項目が出題
  • テストCでは C1,…,C10の10個の項目を出題
  • テストDでは D1,…,D10の10個の項目を出題
  • 共通の受験者が、テストCとテストDをほぼ同時に受験する

  • テストCの結果をIRT分析・・・尺度\(\theta_C\)を得る
  • テストDの結果をIRT分析・・・尺度\(\theta_D\)を得る
  • 二つのものさし(尺度\(\theta_C\) と尺度\(\theta_D\))は異なる
    → 同じ受験者であっても、それぞれのものさしで表される学力\(\theta\) の値は異なる
  • しかし、同じ受験者の学力\(\theta\)なら、値は異なっても、同じ学力を意味する
    → 下の式を使って、学力を変換できる

\[尺度\theta_Cでの学力\theta=\] \[(定数1)×尺度 \theta_D で表された学力 \theta +(定数2)\]

  • IRTに使うテストでは、必ず過去問題が使われるわけではない
  • テストに出題される問題が全て新規作成でも(=等化されていなくても)
    → 共通受験者デザインを使えば、IRTによる等化は可能

異なる2つの全国テストを受けた受験生の学力比較

  • 例えば、4月に実施した全国テスト1と10月に実施した全国テスト2の受験生の学力を比較することを考える

比較方法 内容
ナイーブな直接比較 全国テスト1と全国テスト2の得点をそのまま比較
等化を経た比較 等化された共通尺度θxを使って全国テストを比較
ナイーブな直接比較の問題点
  • 全国テスト1と2は異なるテスト
    → 得点の意味が異なる(例:50点が同じ学力を示すとは限らない)
  • 同じ尺度で測られていないテストを比べると
    → 学力の成長や差異を正しく把握できない
  • 例えるなら、4月の体重をkg単位で測り、10月の体重をポンド単位で測り
  • 変化をそのまま比較するようなもの(単位が違う)
解決策:
  • 2つの全国テストとほぼ同時期に、等化済みの共通尺度をもつ2つのテストを受ければ可能
集団 実施時期 実施テスト 等化済みの共通尺度
集団A 4月 全国テスト1テスト1 θx(テスト1とテスト2)
集団B 10月 全国テスト2テスト2 θx(テスト1とテスト2)
  • 全国テスト1と全国テスト2の直接の等化情報はない
  • しかし、テスト1とテスト2が共通尺度θxで等化されていれば
    → テスト1の得点もテスト2の得点もθxという同じ尺度で表現可能
  • 全国テスト1を受けた集団Aはテスト1も受けている
    → 全国テスト1の得点をθxに変換できる
    全国テスト2を受けた集団Bはテスト2も受けている
    → 全国テスト2の得点をθxに変換できる
結果として

→ 全国テスト1(4月)と全国テスト2(10月)の得点を、共通尺度θxで等化可能
→ 学力の時点間比較(成長の可視化)ができる

テスト1とテスト2による等化を用いた比較の利点

共通尺度 θx による比較ができる
  • テスト1とテスト2でIRT等化済み
    → 全国テスト1・2の得点を同じθx上にマッピングできる
テストの難易度や尺度の違いを補正できる
  • テスト間の構成や困難度の違いをIRTモデルで補正できる
    → 純粋に学力の違い・成長を測定可能
項目反応理論による学力推定ができる
  • 単なる合計得点ではなく、項目特性(識別力・困難度)を考慮したθ推定ができる
  • 例:難しい問題に正答した生徒は、同じ得点でもより高いθと評価される
時間軸をまたいだ比較が可能
  • 「4月の全国テスト1」と「10月の全国テスト2」でも、θxが共通なので成長や差異を妥当な形で比較可能

まとめ
・「全国テスト1と2だけを受けた生徒」の得点比較は、テスト構造や尺度の違いの影響を受けやすく、信頼性に欠ける
・テスト1・2を介してIRT等化された尺度θxを使えば、「異なる時点・異なるテスト」の結果も、共通の学力指標で直接比較できる

7.3 等化の条件

等化の条件

1. 各尺度が同一の構成概念を測定している。
2. 変換に対称性がある。
3. 2つの尺度の信頼性が等しい。
4. θによる素点の条件付き分布が両尺度で等しい。
5. どの集団において等化を行っても変換は不変。
(出典:加藤建太郎他『Rによる項目反応理論』p.257.