平成222010)年度 重点型研究実施報告書

 

課題番号

22−共研−4203

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

科学技術コーパスの特徴語句抽出とその応用

重点テーマ

言語と統計

フリガナ

代表者氏名

コヤマ ユキエ

小山 由紀江

ローマ字

Koyama Yukie

所属機関

名古屋工業大学

所属部局

大学院工学研究科

職  名

教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

5 人

 

研究目的と成果(経過)の概要

本研究は、工学部の学生が専門英語を効果的に学習するための科学技術特徴語句を統計的手法と言語処理や機械学習技術により抽出すること、また抽出された語句をweb-learningや言語テスト作成等の形で教材化することにより、工学部の英語教育に資することを目的とする。
この学習語句を抽出する対象は一般科学雑誌および専門誌論文のコーパスであるが、これらのコーパスから適切な学習対象語句を抽出する手法が重要なファクターとなる。H22年度はこれまで提案された特徴語抽出(小山 2008)や特徴語句抽出(田中・小山 2009)の手法を踏まえつつ、抽出結果の学習へのより実用的な応用という次の段階にも重点を置き学習教材の具体的提案や抽出結果を用いた言語テストを行うことも視野に入れた研究を行った。
田中は、統計的モデル選択に基づき、ある共通の言語的性質を有する文集合(たとえば特定分野の文や、特定の意味を含む文の集合)の各文を、その共通の性質にかかわる表現を維持しつつ汎化する手法を提案した。大規模なN-gramデータベース(通称、Google N-gram)を活用した予備実験を行い、その可能性や問題点が明らかとなった。宮崎は英語学習者用に技術文書作成支援Webアプリケーションの構築を行い、技術文献コーパスから入力英文に類似性の高い文章を抽出・提示した。その計算には小山・田中の成果である特徴語句の概念も一部取り入れ、またツールの機能に田中の開発した文汎化技術も採用している。中野は特徴語抽出に利用される単語頻度を、特定の文書にのみ多く出現することによる過剰評価を防ぐために、文書における出現の有無とその文書の単語数による最尤推定を試みた。 小山は科学技術英語の特徴表現をテストのアイテムに取り込み、その結果とCan-do Statements の回答と比較分析した。古典的テスト理論、IRT、Neural Test Theory (NTT) による分析を行い、学習者の能力を段階的なものととらえる潜在ランク理論としてNTTの可能性を示した。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

[論文発表]
Miyazaki,Y.,Ikemoto,T.and Tanaka,S.
Development of Web Application Supporting to Write Technical Documents in English:
Using Corpus for Language Teaching,Proceedings of the ICTATLL 2010 Kyoto
Conference,2011,149-158
宮崎佳典・池本孝徳・田中省作
コーパスを用いた英語技術文書作成補助ツールの試作と評価(2),統計数理研究所共同研究リ
ポート254,2011,33-57
田中省作・宮崎佳典・池本孝徳・小山由紀江
英作文支援のためのクラスn-gramモデルに基づいた文例の汎化,統計数理研究所共同研究リ
ポート254,2011,1-19
影山功・宮崎佳典,
ジャンル別個人Readability式生成の試みならびに属性分析,統計数理研究所共同研究リポー
ト254,2011,21-32
小山由紀江・木村哲夫
Neural Test Theoryを使ったCan-do Statementsの分析,統計数理研究所共同研究リポート
254,2011,59-77
中野智文
ESPにおける単語頻度と文書頻度の考察,統計数理研究所共同研究リポート254,2011,79-86
〔学会発表〕
田中省作
意味や使用域が緩やかに類似した文集合の表層的汎化?可能性と課題?,言語研究と統計2011,2011
年3月14日,統計数理研究所(東京都)
宮崎佳典
英語技術文献コーパスからの例文提示を利用した英作文支援ツール開発,言語研究と統計2011,
2011年3月14日,統計数理研究所(東京都)
小山由紀江
Neural Test TheoryによるCan-do Statementsの分析,言語研究と統計2011,2011年3月14
日,統計数理研究所(東京都)
田中省作
質問紙分析法?尺度と相関の観点から?,母語・継承語・バイリンガル教育(MHB)研究会リサーチ・
メソッド学習会,2010年11月7日,立命館大学(京都府)
池本孝徳・宮崎佳典・田中省作
n-gramと科学英語の特徴表現を活用した例文提示に基づいた英作文支援ツール,NLP若手の会第
5回シンポジウム,2010年9月6日,国立情報学研究所(東京都)
田中省作・宮崎佳典・池本孝徳・小山由紀江
英作文支援のためのクラスn-gramモデルに基づいた文例の汎化,応用数理学会環瀬戸内応用数理
研究部会第14回シンポジウム,2011年1月23日,岡山理科大学(岡山県)
小山由紀江・田中省作
構造を考慮した科学英語の特徴語抽出,外国語教育メディア学会第50回研究大会,2010年8月3
日,横浜市立横浜フロンティア高等学校(神奈川県)
池本孝徳・宮崎佳典・田中省作
技術文献コーパスからの例文提示を利用した英作文支援ツールの構築と評価,外国語教育メディア
学会第50回研究大会,2010年8月3日、横浜市立横浜フロンティア高等学校(神奈川県)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

「言語研究と統計2011」(他の言語統計関連の共同利用研究者との合同開催)
2011年3月14日(震災の影響により3月15日は中止)10時〜16時半
統計数理研究所
参加者数 20名

 

研究参加者一覧

氏名

所属機関

田中 省作

立命館大学

中野 智文

エヌ・ティ・ティ レゾナント株式会社

前田 忠彦

統計数理研究所

宮崎 佳典

静岡大学