平成252013)年度 一般研究2実施報告書

 

課題番号

25−共研−2025

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

科学技術コーパスの特徴表現分析とLRTに基づいたCATの作成

フリガナ

代表者氏名

コヤマ ユキエ

小山 由紀江

ローマ字

KOYAMA YUKIE

所属機関

名古屋工業大学大学院

所属部局

工学研究科

職  名

教授

配分経費

研究費

40千円

旅 費

119千円

研究参加者数

6 人

 

 

研究目的と成果(経過)の概要

本研究の目的は (1)特定の分野のコーパスを分析し、その分野の特徴語句を抽出して教育的な使用に供すること、及び (2)抽出結果の特徴語彙と語句を言語テスト項目に使用しLRT (Latent Rank Theory) によるCAT (Computerized Adaptive Testing)方式のテストを作成することである。

今年度はまず昨年度試行した科学技術語彙・語句のLRT CATを再度実施し、その問題点と改良点を検証することから研究を開始した。H25年6月に実施した結果を検証したところ、項目の中に項目参照プロファイルが良くないものが含まれ、その結果としてテスト参照プロファイルも識別力の高くないものとなっていることが明らかとなった。そこでまず、テスト項目の見直しが必要であることから、科学技術英語のコーパスを再度分析し直すことになった。従って、今年度の研究は(1)から(2)へ進み、また(1)に戻るという軌跡をたどった。小山と藤枝はテスト項目の土台となる特定分野のコーパスの学習語彙・語句を分析するため、分析手法の研究を行い、それに従って実際の分析を行った。この過程ではアメリカの高校の科学系教科書をコーパス化する作業も含まれ、デジタル化されていない教科書を基に物理と化学の教科書をコーパス化した。藤枝は学生のニーズに合致した内容として放射線学に関わる3段階のコーパス、1)患者用の一般的サイト記事 2)放射線の教科書 3)放射線の学術専門誌記事 を構築した。さらにこれらのコーパスを分析し学生の学習段階に応じた重要語彙リストを提案した。
また、特徴語、特徴表現の抽出手法については、田中はランダムフォレストの部分木の重要度を求めるためジニ係数に着目して新たな提案を行い、中野は特定の文書に多数出現するが実際にはその分野の重要語ではない語を特定し重要語句の精選をするために、逆文書頻度と文書長を使った手法を提案した。抽出した語彙、語句の重要性を検証するためにこれらの手法の研究成果がCATのテスト項目作成の基礎となる。
木村はオープンソースのCATであるConcertoを用いた小規模CATを開発する手法を提案しアプリケーションの日本語化を行った。これまで開発されてきた小規模のCATはMoodle等のLMSに依存することが多く、LMSのバージョンアップに常に対応しなければならないという問題があったが、Concertoはこの問題を解決する可能性を示すCATとして重要である。
今後はさらにアメリカ高校教科書レベルのコーパス構築と他のレベルのコーパスを分析し、結果の比較検討を進めて、精度の高い項目を作成し、CATをより識別力の高いものに改良する予定である。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

【論文】
1.木村哲夫. (2014). 「オープンソースウエアによるコンピュータ適応型テスト開発」統計数理研究所共同研究リポート321,1-14
2.小林雄一郎, 田中省作, 阿部真理子. (2014) . 「情報量基準に基づく習熟度尺度の再検討」統計数理研究所共同研究リポート321,29-43
3.小山由紀江. (2014). 「科学技術英語の学習語彙リスト再考:米国高校教科書を分析して」統計数理研究所共同研究リポート321,81-96
4.田中省作. (2013).「英語学術表現リストの階層的構築 -言語資源としての機関リポジトリの新しい活用-」立命館文學, 第636号(尾田政臣教授退職記念号), 87-97
5.田中省作. (2014). 「ジニ係数に基づいたランダムフォレストにおける部分木の重要度」統計数理研究所共同研究リポート321,15-27
6.中野智文. (2014). 「文書長付き文書頻度からの最大尤度推定の計算」統計数理研究所共同研究リポート321,45-59
7.Fujieda, Miho.(2014). Word Lists from Three Specialized Corpora: Patient Education Materials, Textbooks, and Research Articles, 統計数理研究所共同研究リポート321,61-80

【学会発表】
1.Fujieda, M., Suzuki, H., & Koyama, Y. (2013). Creating corpus-informed word lists for a college radiology ESP program. Presented at Vocab@Victoria Conference, Victoria University of Wellington, New Zealand. (19 December, 2013)
2.Kobayashi, Y., Tanaka, S., Tomiura, Y., Miyazaki, Y., Tokumi M.(2014). Identifying Discipline-specific Expressions Based on Institutional Repository. Presented at Digital Humanities Australasia 2014, The University Club of Western Australia (Perth, Autstralia)(19 March, 2014)
3.Koyama,Y. and Fujieda, M. (2013). Integrating ESP Corpus Analysis and Latent Rank Theory into a Moodle-based Computer Adaptive Testing System. Presented at EuroCALL2014, University of Evora, Portugal. (12 September, 2013)
4.木村哲夫. (2014). 「オープンソースウエアによるコンピュータ適応型テスト開発」言語研究と統計2014,統計数理研究所(2013年3月29日)
5.小山由紀江. (2014). 「科学技術英語の学習語彙リスト再考:米国高校教科書を分析して」言語研究と統計2014,統計数理研究所(2013年3月29日)
6.田中省作,宮崎佳典,小山由紀江,藤枝美穂. (2013). 「分野依存性を考慮した用例提示型英文書作成支援ツールの開発」教育システム情報学会第2回研究会,千歳科学技術大学(2013年7月13日)
7.中野智文. (2014). 「文書長付き文書頻度からの最大尤度推定の計算」言語研究と統計2014,統計数理研究所(2013年3月29日)
8.藤枝美穂. (2014). 「医療系ESP教材としての患者向け医療情報・専門教科書・研究論文:コレスポンデンス分析を用いたコーパスデータの検証」言語研究と統計2014,統計数理研究所(2013年3月29日)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

テーマ:「言語研究と統計2014」(他の言語統計関連共同利用グループと共催)
日時:2013年3月29日13時-30日15時
場所:統計数理研究所
参加者:54名


 

研究参加者一覧

氏名

所属機関

木村 哲夫

新潟青陵大学

田中 省作

立命館大学

中野 智文

NTTレゾナント

藤枝 美穂

京都医療科学大学

前田 忠彦

統計数理研究所