平成262014)年度 一般研究2実施報告書

 

課題番号

26−共研−2026

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

ESPコーパスの分析による特徴語彙・表現の抽出と教育への応用

フリガナ

代表者氏名

コヤマ ユキエ

小山 由紀江

ローマ字

Koyama Yukie

所属機関

名古屋工業大学大学院

所属部局

工学研究科

職  名

教授

配分経費

研究費

40千円

旅 費

97千円

研究参加者数

7 人

 

 

研究目的と成果(経過)の概要

H.26年度,本研究の目的は以下の3点であった.
1.テキストにタグを付与して開発中の科学技術英文作成支援システムに実装し,対象となる学習者でツールを再評価すること
2.科学技術分野の特徴語彙・表現を抽出し,指導語彙を選別すること
3.2.で選定した語彙・表現をターゲットとするテスト項目を作成し,開発中の潜在ランク理論(Latent Rank Theory)を用いたコンピュータ適応型テスト(CAT)を実施し,その妥当性を検証することである.
また,H26年度は,本研究グループの科学技術英語コーパスの分析に関わるこれまでの研究成果を踏襲しつつ,分析対象に難易度のやや低いテキストを追加し,教育的応用の適用範囲を大学低学年に拡大することも視野に入れた.
1. 科学技術英文作成支援システム
非英語母語話者による技術英文作成支援を行うために,ユーザによる入力英文に近いと推定される文書を技術文献コーパスの中から検索,提示するツールを開発している.既存のアルゴリズムでは,入力英文とコーパス内の英文に対し,単語レベルでn-gramを構成することでベクトルを構成し,そのコサイン類似度によって近さを計量していた.これに対し,新たに句構造に関して解析した上でその結果を句単位でn-gramに反映させ,文の構造を含めた類似文提示法を考案した.
また,英作文支援システムの例示英文の検索後,ユーザに提示する過程で,例文集を構文構造を考慮しつつ簡略化,提示する手法を提案した.構文構造を考慮することで,人の直感に合うような簡略化が可能となる.これについては今後より詳細な評価が必要である. また,大学等の機関リポジトリから得られる部局別英語論文から,当該機関に 関連する語彙を組織構造・階層的に重要語彙を個人の語彙分布を軸に自動的に 生成する方法を提案し,実際に九州大学については試作,公開した.

2. 科学技術分野の特徴語彙・表現の抽出,及び指導語彙の選別
昨年度から引き続き,ESP分野のコーパスを対象として分析を行った.科学技術分野では難易度の検証に基づいて論文コーパスのみならず,より容易な一般的科学技術記事(Scientific American)を分析し,頻度上位280語を基に後述するCATの項目を作成した.上位には technology, data, researcher, gene 等の一般的な科学用語が抽出されている.また,ESPのより特殊な分野として放射線科学関連の3つの独自コーパス(患者向け情報,専門教科書,学術論文)を用いてそれぞれから抽出された特徴語の関係をコレスポ ンデンス分析で可視化し関係性を分析した.さらに同じコーパスを使った特徴表現の抽出に着手した.手法としては,それぞれのコーパスのbigram, trigram, 4-gramを頻度,分布度,参照コーパスに対するkeynessを抽出基準とした.抽出された表現はbi-gamではheart attack, blood clotのような分野に特徴的な名詞句が多かった.

3.コーパス分析に基づく項目作成とCATの実施
当初の計画ではLRTによる項目分析を行う予定であったが,H26年度はランク分けよりも詳細な難易度パラメータを持つIRTを使用することにした.2.のコーパス分析の結果を用いて語彙,語句(4gram, 5gram)の項目バンクを構築し,木村,小山によって科学技術英語語彙・語句CATを作成,実施した.結果から一定の妥当性を得たが,項目難易度のバランスのより良い項目バンクを作成することが今後の課題である.また,木村を代表とした科学研究費補助金「コンテンツ・バランスと受験者の教育心理学的側面を考慮したCAT開発」(基盤(C))により,Rによる潜在ラン ク理論による項目分析プログラムを完成,オープンソースでCBT・CATを実施する環境Concertoと学習管理システムMoodle間でデータ連携を 行うプラグインを開発した.


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

【論文】

小山由紀江・木村哲夫,「科学技術英語の語彙・語句をターゲットとするコンピュータ適応型テスト」統計数理研究所共同研究リポート338, pp1-16, (2015)

田中省作, 冨浦洋一, 宮崎佳典, 徳見道夫, 「機関リポジトリの言語資源としての活用:大学毎の部局別英語重要語彙の選定」, 統計数理研究所共同研究リポート338, 17-22, (2015)

戸沢信晴, 宮崎佳典, 田中省作, 「チャンク情報を考慮した例示型英文書作成支援ツール」統計数理研究所共同研究リポート338, pp23-35, (2015),

戸沢信晴, 宮崎佳典, 田中省作, 「技術文献コーパスを用いた例文提示型英文書作成支援ツールの開発」, 電子情報通信学会技術研究報告 信学技報 114(82), 69-72 (2014). 於 静岡大学浜松キャンパス 2014.6

中野智文, 「ブートストラップ手法を用いた学習不用語の除去」統計数理研究所共同研究リポート338, pp37-45, (2015)

渡部孝幸, 田中省作, 宮崎佳典, 「構文構造と共起性を考慮した英文汎化手法」, 統計数理研究所共同研究リポート338, pp59-66, (2015)

Fujieda, M. (2015). Multi-word units in specialized corpora: What pedagogical information can they give us? 『統計数理研究所共同研究リポート338 ESP コーパスの分析による特徴語彙・表現の抽出と教育への応用』, 47-58.


Okaku, S., Tomiura, Y., Ishita, E, Tanaka, S.: Towards Generating Multiple-Choice Tests for Supporting Extensive Reading, Proceeding of eLmL 2015, pp.14-19 (2015.2)

【学会発表】

木村哲夫・秋山實「ハンズオンワークショップ:オープンソースでCBT・CATを実施する環境Concertoを知ろう」第39回教育システム情報学会全国大会プリカンファレンス (2014)

小山由紀江「理工系学部生のための学習語彙リスト:対象とすべきコーパスは何か?」 第44回中部英語教育学会山梨大会,於山梨大学,2014.6

戸沢信晴, 宮崎佳典, 田中省作, 「チャンク情報を考慮した例示型英文書作成支援ツール」, 外国語教育メディア学会中部支部第84回支部研究大会 (2014). 於 静岡大学 2014.11

藤枝美穂,「三種類の専門コーパスを用いた医学英語リーディング教材の語彙分析」 第17回日本医学英語教育学会学術集会 東京ガーデンパレス 2014.7


Fujieda, M. and Suzuki, H., Genre-based vocabulary development in ESP education. AILA World Congress 2014. Brisbane, Australia. Abstract Book, p. 125. (August, 2014)

Fujieda, M., Extracting pedagogically useful multi-word expressions from specialized corpora.
TUJ Annual Colloquium on Applied Linguistics, Temple University Japan Osaka Campus (February, 2015).

Kimura, T. & Kosinski, M., Startup e-testing with open source: CBT/CAT/MST on Concerto. 科学研究費課題(課題番号25370736)の一部として東京で実施されたワークショップ(2014)

Kimura, T., Data coordination between Concerto and Moodle. Moodlemoote Japan 2015, Kyoto Sangyo University. (2015)

Miyazaki, Y., Tanaka, S., Koyama, Y., Development of a Corpus-Based Web Application to Support Writing Technical Documents in English, E-Learn 2014 (October, 2014).

Mizumoto, A., Koyama, Y., and Ozawa, S., Developing and evaluating an in-house computerized adaptive testing (CAT) program, Asia CALL 2014, Changhua National University of Education, Changhua, Taiwan (November, 2014)


研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

【研究会】
テーマ:「言語研究と統計2015」(他の言語統計関連共同利用グループと共催)
日時:2013年3月23日10時40分-24日13時
場所:統計数理研究所
参加者:60名


 

研究参加者一覧

氏名

所属機関

木村 哲夫

新潟青陵大学

田中 省作

立命館大学

中野 智文

株式会社VOYAGE GROUP

藤枝 美穂

京都医療科学大学

前田 忠彦

統計数理研究所

宮崎 佳典

静岡大学