このセクションで使っている packages

library(DT)
library(plyr)
library(reactable)
library(tidyverse)
library(glpkAPI)
library(psych)
library(irtoys)
library(ltm)
library(plink)

7. IRT による等化

等化 (equating) とは

2 つの尺度について、どちらか一方の尺度に、他方の尺度の0点の位置や目盛の幅を与えること
→　どちらか一方の尺度に他方の尺度の「原点」と「単位」を与えること
2 つの尺度「華氏温度 \(F\)」と「摂氏温度 \(C\)」に関す変換式を求めること

7.1 線形変換

IRT を使うと次の 2 つのことが可能になる・テストに用いた項目に依存せずに、項目パラメタを推定できる
→　異なる問題から構成されるテスト結果を互いに比較できる

・テストを受けた受験者集団に依存せずに、項目パラメタを推定できる
→　異なる集団から得られたテスト結果を互いに比較できる

毎年4月に、新入生を対象として実力テストを実施していると仮定
昨年実施したテストが X、今年実施したテストが Y
昨年の実職テストを IRT の 2 パラメーター・ロジスティック・モデルで分析
→　分析から得られた「困難度のものさし」 = 尺度\(\theta_x\)
テスト X に出題した項目：\(x1, x2, ...., x10\)

テスト X から得られた困難度の尺度\(\theta_x\)

今年の実職テストを IRT の 2 パラメーター・ロジスティック・モデルで分析
→　分析から得られた「困難度のものさし」 = 尺度\(\theta_y\)
テスト X に出題した項目：\(y1, y2, ...., y10\)

テスト y から得られた困難度の尺度\(\theta_y\)

尺度\(\theta_x\) と尺度\(\theta_y\) を比較すると
→　尺度\(\theta_y\) の方が困難度が大きいから、問題が難しいのでは？
→　しかし、必ずしもそうとはいえない

その理由　→　尺度\(\theta_x\) と尺度\(\theta_y\) は目盛は同じだが、同じ意味ではないから

例えば、尺度\(\theta_x\) の x2 と尺度\(\theta_y\) の y7 はそれぞれの目盛りでほとんど同じ位置にある
しかし、x2 と y7 は同じくらい難しい項目だとはいえない

2 つのテスト結果を同一の尺度に統一すれば
→　2つの異なる集団から得られたテスト結果を互いに比較できる
→　線形変換

線形変換

変換したいものに（ここでは \(\theta_y\))、ある定数をかけたり足したりして、他の尺度（ここでは \(\theta_x\)）に変換すること

線形変換することで、尺度\(\theta_y\)上に並べた項目 (\(y1,...,y10\)) を尺度\(\theta_x\) 上に並べることができる
→　等化
テスト X を受験した学力\(\theta_x\) の人も、テスト Y を受験した学力\(\theta_y\) の人も、どちらも学力\(\theta_x\)で表すことができるようになった

共通尺度とは

ここでは学力\(\theta_x\) のこと
等化された項目の困難度や受験者の学力\(\theta\)を表す尺度のこと

7.2 等化デザイン

等化をするためには、等化するテスト間に共通の情報が必要
共通の情報を何に使うかによって、2 つの等化デザインがある

等化デザインの種類	共通するもの
共通項目デザイン	項目
共通受験者デザイン	受験者

7.3.1 共通項目デザイン

共通した項目のパラメーターの値を利用して等化する方法
等化するテスト間で共通の項目 X6,…,x10 を出題する
テストAとテストBに共通する5つの項目 (x6,…, x10) を出題
テストAでは A1,…,A5 と x6,…, x10 の計10の項目を出題
テストBでは B1,…,B5 と x6,…, x10 の計10の項目を出題
テストAとテストBを異なる受験者集団に対して実施する
テスト結果を IRTの 2パラメーター・ロジスティック・モデルを使って分析
テストAを IRT分析して得られた「ものさし」・・・尺度\(\theta_A\)
テストBを IRT分析して得られた「ものさし」・・・尺度\(\theta_B\)
テストAに出題した項目を、困難度の値によって尺度\(\theta_A\) に並べると

テスト B をテスト A に等化する

尺度\(\theta_B\) で表された困難度の値を、尺度\(\theta_A\) で表すこと

テストAとテストBに共通する5つの項目x6,…, x10よりもテストAでのみ出題された5つの項目(A1,…,A5)の方が簡単

テストAとテストBに共通する5つの項目x6,…, x10よりもテストBでのみ出題された5つの項目(B1,…,B5)の方が簡単

以下の 2 つの困難度の値は異なる

・尺度\(\theta_A\) で表された x6〜x10 の困難度の値
・尺度\(\theta_B\) で表された x6〜x10 の困難度の値
・同じ項目（例えば x10）であれば、項目の「困難度の程度」を表すという点では同じ意味

→　同じ温度でも摂氏と華氏とでは数値が異なることと同様

\[華氏　＝　1.8×摂氏+32\]

・どちらも気温を表しているが、数値が異なるだけ
・摂氏が学力\(\theta_A\)、華氏が力\(\theta_B\)に相当

「テストBをテストAに等化する方法」は「摂氏を華氏に変換する方法」と似ている

困難度の変換

・摂氏を華氏に変換するのと同様、「尺度\(\theta_B\) で表された困難度」は次の式で「尺度\(\theta_A\) で表された困難度」に変換できる

\[尺度\theta_A で表された困難度＝\] \[（定数1）×尺度\theta_Bで表された困難度＋（定数2）\]

（定数1）と（定数2）を計算する方法・・・Mean & Sigma法
（定数1）と（定数2）が計算できれば
→　テストBで出題された項目B1,…, B10の困難度を、尺度\(\theta_A\) で表せる

項目B1〜B5 の困難度の値を変換　→　テストAの尺度\(\theta_A\) 上に配置

識別力の変換

識別力は（定数1）を使って次のように変換できる

\[尺度\theta_A で表された識別力＝\] \[尺度\theta_Bで表された識別力÷（定数1）\]

受験者の学力\(\theta\)

テストAの受験者の学力\(\theta\)・・・もともと尺度\(\theta_A\) で表す
テストBの受験者の学力\(\theta\)・・・等化されたテストBの項目パラメーターで表された項目特性を使って学力\(\theta\) を推定する
→　テストAとテストBの受験者の学力\(\theta\)はどちらも尺度\(\theta_A\) で表すことができる →　テストBの受験者の学力\(\theta\)が等化された

7.3.2 共通受験者デザイン

共通した受験者のパラメーターの値を利用して等化する方法
テストCとテストDには、全く別の項目が出題
テストCでは C1,…,C10の10個の項目を出題
テストDでは D1,…,D10の10個の項目を出題
共通の受験者が、テストCとテストDをほぼ同時に受験する

テストCの結果をIRT分析・・・尺度\(\theta_C\)を得る
テストDの結果をIRT分析・・・尺度\(\theta_D\)を得る
二つのものさし（尺度\(\theta_C\) と尺度\(\theta_D\)）は異なる
→　同じ受験者であっても、それぞれのものさしで表される学力\(\theta\) の値は異なる
しかし、同じ受験者の学力\(\theta\)なら、値は異なっても、同じ学力を意味する
→　下の式を使って、学力を変換できる

\[尺度\theta_Cでの学力\theta=\] \[（定数1）×尺度 \theta_D で表された学力 \theta ＋（定数2）\]

IRTに使うテストでは、必ず過去問題が使われるわけではない
テストに出題される問題が全て新規作成でも（＝等化されていなくても）
→　共通受験者デザインを使えば、IRTによる等化は可能

異なる2つの全国テストを受けた受験生の学力比較

例えば、4月に実施した全国テスト1と10月に実施した全国テスト2の受験生の学力を比較することを考える

比較方法	内容
ナイーブな直接比較	全国テスト1と全国テスト2の得点をそのまま比較
等化を経た比較	等化された共通尺度θxを使って全国テストを比較

ナイーブな直接比較の問題点

全国テスト1と2は異なるテスト
→　得点の意味が異なる（例：50点が同じ学力を示すとは限らない）
同じ尺度で測られていないテストを比べると
→　学力の成長や差異を正しく把握できない
例えるなら、4月の体重をkg単位で測り、10月の体重をポンド単位で測り
変化をそのまま比較するようなもの（単位が違う）

解決策：

2つの全国テストとほぼ同時期に、等化済みの共通尺度をもつ2つのテストを受ければ可能

集団	実施時期	実施テスト	等化済みの共通尺度
集団A	4月	全国テスト1、テスト1	θx（テスト1とテスト2）
集団B	10月	全国テスト2、テスト2	θx（テスト1とテスト2）

全国テスト1と全国テスト2の直接の等化情報はない
しかし、テスト1とテスト2が共通尺度θxで等化されていれば
→　テスト1の得点もテスト2の得点もθxという同じ尺度で表現可能
全国テスト1を受けた集団Aはテスト1も受けている
→ 全国テスト1の得点をθxに変換できる
全国テスト2を受けた集団Bはテスト2も受けている
→ 全国テスト2の得点をθxに変換できる

結果として

→　全国テスト1（4月）と全国テスト2（10月）の得点を、共通尺度θxで等化可能
→ 学力の時点間比較（成長の可視化）ができる

テスト1とテスト2による等化を用いた比較の利点

共通尺度 θx による比較ができる

テスト1とテスト2でIRT等化済み
→　全国テスト1・2の得点を同じθx上にマッピングできる

テストの難易度や尺度の違いを補正できる

テスト間の構成や困難度の違いをIRTモデルで補正できる
→ 純粋に学力の違い・成長を測定可能

項目反応理論による学力推定ができる

単なる合計得点ではなく、項目特性（識別力・困難度）を考慮したθ推定ができる
例：難しい問題に正答した生徒は、同じ得点でもより高いθと評価される

時間軸をまたいだ比較が可能

「4月の全国テスト1」と「10月の全国テスト2」でも、θxが共通なので成長や差異を妥当な形で比較可能

まとめ
・「全国テスト1と2だけを受けた生徒」の得点比較は、テスト構造や尺度の違いの影響を受けやすく、信頼性に欠ける
・テスト1・2を介してIRT等化された尺度θxを使えば、「異なる時点・異なるテスト」の結果も、共通の学力指標で直接比較できる

7.3 等化の条件

等化の条件

1. 各尺度が同一の構成概念を測定している。
2. 変換に対称性がある。
3. 2つの尺度の信頼性が等しい。
4. θによる素点の条件付き分布が両尺度で等しい。
5. どの集団において等化を行っても変換は不変。
（出典：加藤建太郎他『Rによる項目反応理論』p.257.

43. 項目反応理論 (IRT) 等化

Masahiko Asano

2025-04-27

7. IRT による等化

等化 (equating) とは

7.1 線形変換

テスト X から得られた困難度の尺度\(\theta_x\)

テスト y から得られた困難度の尺度\(\theta_y\)

その理由　→　尺度\(\theta_x\) と尺度\(\theta_y\) は目盛は同じだが、同じ意味ではないから

線形変換

共通尺度とは

7.2 等化デザイン

7.3.1 共通項目デザイン

テスト B をテスト A に等化する

以下の 2 つの困難度の値は異なる

「テストBをテストAに等化する方法」は「摂氏を華氏に変換する方法」と似ている

7.3.2 共通受験者デザイン

異なる2つの全国テストを受けた受験生の学力比較

ナイーブな直接比較の問題点

解決策：

結果として

テスト1とテスト2による等化を用いた比較の利点

共通尺度 θx による比較ができる

テストの難易度や尺度の違いを補正できる

項目反応理論による学力推定ができる

時間軸をまたいだ比較が可能

7.3 等化の条件

43. 項目反応理論 (IRT) 等化

Masahiko Asano

2025-04-27

7. IRT による等化

等化 (equating) とは

7.1 線形変換

テスト X から得られた困難度の尺度\(\theta_x\)

テスト y から得られた困難度の尺度\(\theta_y\)

その理由 → 尺度\(\theta_x\) と 尺度\(\theta_y\) は目盛は同じだが、同じ意味ではないから

線形変換

共通尺度とは

7.2 等化デザイン

7.3.1 共通項目デザイン

テスト B をテスト A に等化する

以下の 2 つの困難度の値は異なる

「テストBをテストAに等化する方法」は「摂氏を華氏に変換する方法」と似ている

7.3.2 共通受験者デザイン

異なる2つの全国テストを受けた受験生の学力比較

ナイーブな直接比較の問題点

解決策：

結果として

テスト1とテスト2による等化を用いた比較の利点

共通尺度 θx による比較ができる

テストの難易度や尺度の違いを補正できる

項目反応理論による学力推定ができる

時間軸をまたいだ比較が可能

7.3 等化の条件

その理由　→　尺度\(\theta_x\) と尺度\(\theta_y\) は目盛は同じだが、同じ意味ではないから