技術強化型テスティングにおける測定モデルの考察と展望
要旨
コンピュータで実施するテスト(CBT)は教育アセスメントにおける主要なテスト実施形態となりつつあり,従来の紙筆式テスト(PBT)と比較して,コンピュータ上で実施することによる様々な利点,特に技術強化型項目(CBTだからこそ実現できるテスト問題)と,学習者の学習状態をよりよく測定する目的でのその利用に注目が集まっている.本稿では技術強化型項目から得られる様々なデータを心理測定学の立場から分析・モデリングする近年の試みや実践のレビューを行い,現在の課題や今後の研究の方向性について検討した.その結果,(a)TEIsで実現できる様々な解答形式の測定論的性質への影響,(b)プロセスデータの利用可能性に関する探索的検討,(c)TEIsを含む尺度と既存の測定尺度との等価性の検討,(d)プロセスデータを利用した解答過程の測定モデリングに関する研究が近年盛んに行われていることがわかった.今後の課題として,特にプロセスデータを用いた解答過程のモデリングについて,学習改善につながる有用な情報を提供していくことができるか,TEIsを含むテストの継続的・安定的な運用を実現できるかという観点で継続的な検討・改善が必要があると考えられた.
キーワード:コンピュータによるテスト,項目反応理論,技術強化型項目,プロセスデータ.
項目反応理論に基づく教育のための自然言語処理のモデル
要旨
教育応用において,学習者の能力を測定したり項目の困難度など項目の特性を計測することは,学習支援システム等に幅広い応用がある教育応用の基礎タスクである.単に学習者が所与の項目に正答するかを予測するモデルではなく,学習者の能力や項目の特性を人間の教員が解釈できれば人間の教員が教育するときにも活用できる.統計分野においては,古くから項目反応理論等を用いて試験の学習者の回答パターンから解釈可能なパラメタを推定するアプローチが取られてきた.一方,項目の大部分は自然言語で記述されている.自然言語を解析する自然言語処理分野では,項目のテキストから困難度等の項目特性を抽出する研究に関心が持たれてきた.特に,単語頻度などの技術的に抽出が容易な特徴量から,項目の困難度の多くを説明可能な値を抽出できる語学学習支援などへの応用ではテキストからの困難度推定などの研究が盛んであった.そこで本稿では,テキストからの困難度の推定が項目反応理論とどのように関わりを持つのかについて,外国語の語彙学習支援や読解支援・可読性判定を中心に,様々な分野の研究を引用しながら説明する.そして近年,テキストの意味を考慮した解析で高精度を達成している自己教師あり学習やTransformer等の手法を取り上げて詳説する.
キーワード:項目反応理論,自然言語処理,語学学習支援.
項目露出ペナルティを用いた整数計画法による自動並行テスト構成
要旨
e-Testingの特徴は異なる問題で構成されるが同一精度の測定を実現できるテストの自動構成であり,その重要な課題は可能な限り多くのテストを生成することである.自動テスト構成手法は多数存在するが,整数計画法を用いた最大クリークが現在最も多くのテストを高い測定精度で生成できることが報告されている.しかし,この手法は,テスト間に項目の重複を許すため,項目の出題頻度に偏りを生じさせ,テストの信頼性を低下させる.この問題を解決するために,本研究では整数計画法の目的関数に露出数を所与としたロジスティック関数による以下の2種類のペナルティ,(1)ロジスティック関数による決定論的ペナルティ,(2)ロジスティック関数による確率論的ペナルティ,を提案する.数値実験により,提案手法はテスト数を減らすことなく露出数の偏りを減らすことを示す.
キーワード:自動テスト構成,項目反応理論,e-Testing,項目露出問題,整数計画法.
心理尺度の統計的共通化:等化とリンキングの方法と実践
要旨
人間の能力の一側面を測る目的で行われるテストは,能力の指標となる値を「得点」として得るための仕組みである.異なる回に行われるテストで共通の意味をもつ得点を返すための仕組みとして「等化」や「リンキング」と呼ばれる方法が提案されてきた.「等化」は複数のテストがそれぞれ同一の構成概念を測っていることがわかっている場合に,テスト得点の尺度をそれらの間で共通化する操作を指すが,「リンキング」は一次元性といった制約が少ない場合の共通尺度化手法を総称する概念である.本稿ではまず複数のテスト版による共通尺度化の手法についてその概略を述べる.そのうえで,継続して公平なテストを実施し続けることができるようなテスト計画に,等化の手法がどのように用いられるかについて,実践例を挙げながら説明する.またこれらの説明に際し,具体的な等化の手続きを可視化するためのブロックダイヤグラムについて触れ,従来紹介される機会が少なかった大規模調査の等化の実践について,本稿では学力調査の例を用いて説明する.
キーワード:テスト理論,項目反応理論,大規模テスト,教育測定.
項目反応理論を用いた症状評価項目バンクの現状と今後の課題
要旨
患者報告アウトカムは,質問紙などを用いて患者から直接得られる健康状態に関する報告であり,臨床試験のアウトカムとしての利用も多い.患者報告アウトカム尺度は多数開発されているが,PROMIS®(Patient-Reported Outcomes Measurement Information System)では,項目反応理論によるコンピュータ適応型テストを想定した項目バンクの開発が行われている.コンピュータ適応型テストにより,測定精度を保ったまま質問数を減らすことができ,回答者の負担を減らすことができる.PROMIS®では,項目プールの開発,項目の心理測定学的検討,妥当性の検討の順番で尺度開発をすすめ,その開発にあたって科学的に妥当な基準を設定している.具体的には,(1)対象の構成概念の定義,(2)項目の構成,(3)項目プールの構築,(4)項目バンクの性質の特定,(5)検査のフォーマット,(6)妥当性,(7)信頼性,(8)解釈可能性,(9)翻訳と文化適応の9つの基準である.本論文では,PROMIS®での尺度開発プロセスについて解説をするとともに,日本国内において患者報告アウトカムの項目バンクを開発する上で必要となることについて議論した.
キーワード:患者報告アウトカム,項目反応理論,項目バンク,PROMIS®,COSMIN.
近年の診断分類モデルの推定法の展開
要旨
診断分類モデルあるいは認知診断モデルは学力テストの解答に必要な一連の認知能力(アトリビュート)を想定し,テスト受験者をアトリビュート習得の有無のパタンに分類する統計モデルである.診断分類モデルは,教育テスト分析において有用なツールであり,応用も広がりつつあるものの,パラメタ推定についての包括的な日本語のレビューは未だ存在しない.そこで本稿では診断分類モデルのパラメタ推定法についての展開を展望し,診断分類モデルの応用の促進と理論的発展に資することを目指した.レビューの結果,最尤推定法,ベイズ推定法,ノンパラメトリック推定法の3種類の方法での発展がみられた.最尤推定法では正則化法の利用,ベイズ推定法では変分ベイズといった比較的新しい方法も用いられていた.レビューの結果を踏まえて,診断分類モデルの推定法について残された問題と今後の展望について議論した.
キーワード:診断分類モデル,認知診断モデル,パラメタ推定法.
小サンプルサイズ下での認知診断モデルの推定精度の検討
—モデルの誤設定の影響と推定法の違いに着目して—
要旨
認知診断モデル(cognitive diagnostic models; CDM)では,測定対象となる学習要素はアトリビュートと呼ばれ,学習者ごとに各アトリビュートの習得・未習得の状態が推定される.CDMによる推定結果は,学校現場での形成的評価に有用であると示唆されてきた一方,未だ実践では十分に活用されていないという実態がある.その原因の一つとして,学校現場で想定される小サンプルサイズ下でのCDMの推定精度および,CDMのモデル選択で利用される情報量規準の選択傾向に関する検討の不足が挙げられる.本研究では,このような小サンプルサイズの状況を想定したシミュレーションデザインのもと,CDMにおける一般化モデルに基づきデータを発生させ,その下位モデルにあたる様々なモデルの推定精度および情報量規準の選択傾向を検討した.主な結果として,(1)アトリビュート習得パタンおよび項目パラメタの推定精度の観点からは,最尤推定法およびベイズ推定法いずれの場合においても,各アトリビュートの習得が個別に正答確率に寄与するCRUMが,真のモデルと同程度もしくはそれに次ぐ水準の精度を全体として有していた.(2)サンプルサイズを増やすよりも,項目数を増やしアトリビュート数を減らすことが高い推定精度につながることが示唆された.(3)最尤推定法において AIC は CRUM を支持する割合が高く,BIC は最も倹約的なモデルを支持する割合が高かった.ベイズ推定法においてWAICは,真のデータ生成モデルもしくは,母数の数の意味でそれと同程度に複雑なモデルを支持する傾向が見られた.
キーワード:認知診断モデル,小サンプルサイズ,ベイズ推定法,情報量規準,形成的評価.