テストのための数理モデル：コラム：統計数理研究所

尾崎　幸謙（データ科学研究系）

　大学受験、入社試験、資格試験など、テストは人生を左右する影響力を持つため、できる限り公平に実施され、公平な判断が下される必要がある。例えば、大学入試センター試験は（受験者がごく少数である追試を除けば）一年に一回実施され、同一の問題を受験者全員が解くので、その意味で公平である。

　それでは、TOEIC やTOEFL などのテストはどうであろうか。これらのテストでは毎回異なる問題が出題されている。すると、やさしい問題が出題されたときには高い得点を得ることができるように思える。あるいは、偏差値による評価が行われているとしたら、自分の受験したときに他の受験者の英語力が高ければ、運悪く低い点しか得られないと思うかもしれない。

　しかし、TOEICやTOEFLなどのテストは、項目反応理論というテストのための数理モデルが評価に使用されており、そのおかげで異なる問題を異なる受験者集団が解いたとしても同一の評価を行うことが可能である。だから、TOEIC700点やTOEFL500点がいつも変わらない価値を持っているのである。

　項目反応理論は正誤の2 値データを分析対象とすることが一般的であるが、順序のある3値以上のデータに対する分析モデルを鮫島史子先生（現テネシー大学教授）がはじめて開発された。また、村木英治先生（現東北大学教授）の開発されたモデルが全米学力調査の分析に使用されたり、南風原朝和先生（現東京大学教授）の開発した方法はHaebara methodとして世界的に有名となっており、日本人研究者の活躍が目立っている分野である。

　項目反応理論が素点や偏差値による評価と決定的に違う点を一言で説明すると、問題の難しさ（図のb）と受験者の能力（図のθ）を別々に表わしていることである。素点では点数が難しさと能力の両者を表わしており、両者が混在してしまっている。図はb=0とb=1の2本の曲線が描かれている。bは問題の難しさを表わすため、前者の方がやさしい問題である。横軸は受験者の特性（例えば英語力）を表わしており、特性が高いほど正答確率は高くなる。θを変換した値が600点、700点という評価として返却される。b=0の場合にはθ=0のときに正答確率50％となり、b=1の場合にはθ=1のときに正答確率50％となっている。項目反応理論の数理モデルでは、bとθを比較して、bの方が大きいほど正答確率は低くなり、θの方が大きいほど正答確率は高くなる。問題に正答できるか否かは、自分の力でその難易度の問題が解けるか否かということと同じである。項目反応理論はこのような解答行動メカニズムを数理モデルとして表現している。

　テストと言えば、紙とエンピツを思い浮かべる人が大半だろう。しかし、現在では、パソコン画面に向かいながら、マウスとキーボードで解答を行う形式のテストもある。これはComputer Based Testing（CBT）と呼ばれ、受験経験のある読者もいるだろう。テストがCBTで運用されている場合には、問題を解くたびに、その正誤によって次に出題する問題の難易度を調整することが可能である。すると、受験者ごとに解答する問題が異なってしまう。しかし、そのようなテストでは一般的に項目反応理論が使用されているため、異なる問題を解いたとしても同じ基準で受験者の評価を行うことができる。CBTは受験者各人の学力を推定しつつ、推定された学力に対して正答確率が50％になるような問題を提示し続けるため、受験者の負担は紙とエンピツのテストに比べて軽い。

　このような利点を持つ項目反応理論であるが、異なる問題を解くことに対する心理的抵抗感はあるだろう。受験者が納得してテストを受験できるような説明を行うことも、テストに携わる者として重要な使命だと思っている。

項目反応理論における正答率曲線