平成202008)年度 一般研究2実施報告書

 

課題番号

20−共研−2025

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

コーパスに基づく言語テストの妥当性と統計手法

フリガナ

代表者氏名

コヤマ ユキエ

小山 由紀江

ローマ字

Koyama Yukie

所属機関

名古屋工業大学

所属部局

工学教育総合センター

職  名

教授

配分経費

研究費

40千円

旅 費

190千円

研究参加者数

6 人

 

 

研究目的と成果(経過)の概要

本研究の目的は、科学技術のESPコーパスを様々な統計手法によって分析し、特徴語や特徴表現を抽出し、さらに言語テストを作成して統計手法による妥当性の検証を行うことである。今年度は、特徴語と特徴表現の抽出を主に行い、言語テストの作成と実施は予備的な段階に留まった。以下、今年度の成果について述べる。
石川は「分野別コーパスにおける特徴表現の抽出」を研究した。特定の分野では専門用語として用いられ特殊な使われ方をするが、一般のテキストにも高頻度で使用されるため機械的な抽出が難しい「準専門語彙」について,科学技術ESPコーパスとサブコーパスを対象としてコレスポンデンス分析を行い、準専門表現の抽出を行った。田中は「文分類モデルに基づいた多様なレベルのESP 特徴表現の抽出を試み、低年次大学生の専門領域の英語学習を念頭に,特定分野の特徴的な英語表現の獲得を目的として研究を行った。提案手法は,特定分野の文集合と中高教科書の文集合の分類器を構築し,両集合の文の精選を行いつつ,分類に寄与する素性をもとに,それぞれに特徴的な表現を抽出するものである。さらに,元の文集合でこれらの素性に対応する単語を品詞に汎化し,繰り返し同様のプロセスを経ることで,単語列,コリゲーション,品詞列・構文パタン等多様なレベルの特徴表現を抽出した.小山は「ESPのMWE の抽出とその評価」をテーマに、科学技術ESPコーパスと高校教科書から4-gram, 5-gramを抽出し、相関や主成分分析によって科学技術分野に特徴的な表現を抽出した。MWEの抽出法に関して適切な手法に関して提言を行った。中野は「大規模分散における共起」をテーマとして、肥大化したコーパスを対象とする場合の分析手法の研究を行った。Web 分析では大規模なデータの処理技術として大規模分散技術があり、その例としてハイパーリンクの関連度を、リンク元の語とリンク先の語との共起を用いて尤度比検定を使って分析する手法を提案した。
これらは全て、リポート233に論文として、掲載されている。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

リポート NO.233
石川有香(名古屋工大)「分野別コーパスにおける特徴表現の抽出」
田中省作(立命館大)「文分類モデルに基づいた多様なレベルのESP特徴表現の抽出」
小山由紀江(名古屋工大)「MWE の抽出とその評価」
中野智文(NTT レゾナント)「大規模分散における共起」

http://www11.ocn.ne.jp/~iskwshin/stat.html

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

統計数理研究所言語系共同研究グループ合同発表会「言語と統計2009」
日時:2009 年3 月15 日(日)〜16 日(月)
会場:統計数理研究所(広尾駅下車徒歩5 分)
参加者数 70名

 

研究参加者一覧

氏名

所属機関

石川 有香

名古屋工業大学

清水 裕子

立命館大学

田中 省作

立命館大学

中野 智文

エヌ・ティー・ティー レゾナント株式会社

前田 忠彦

統計数理研究所