平成242012)年度 一般研究2実施報告書

 

課題番号

24−共研−2026

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

イギリスの巨大コーパスにおける新聞サブコーパスの統計学的言語比較研究

フリガナ

代表者氏名

タカミ サトコ

高見 敏子

ローマ字

TAKAMI SATOKO

所属機関

北海道大学

所属部局

大学院メディア・コミュニケーション研究院

職  名

准教授

配分経費

研究費

40千円

旅 費

48千円

研究参加者数

2 人

 

 

研究目的と成果(経過)の概要

 本研究の目的は、イギリスの巨大英語コーパスであるBank of English(BoE)やBritish National Corpus(BNC)に含まれる複数の英国全国紙サブコーパスから得た語彙頻度データの分析を深めることにあった。
 年度の前半は、高見(2003)の方法に若干の変更を加え、高級紙3紙と大衆紙2紙の間で対数尤度比で一定の値以上を示す機能語について調べた。定冠詞theは高級紙に多く、不定冠詞aとanは、aは大衆紙に多く、anは高級紙に多いが、aとanを合計した場合は特定の傾向は見られなかった。また前置詞でもっとも頻度の高いofは高級紙に多く用いられ、one of, out ofの用法が上位を占めるほか、所属地を表す用法や形容詞(例:capable of)・動詞(例:accused of)・成句(例:instead of)など、語形による頻度で見た場合は「名詞+of+名詞」とは異なる用法が多く見られた。また、代名詞については、themselvesとoneselfを除いたほとんどの人称代名詞は大衆紙で多く用いられていた。一方、代名詞itについては、itsとitselfと併せて高級紙で多く用いられていた。こうした代名詞に関する結果はTakami(2004)で得た「大衆紙は人物についての、高級紙は事物についての形容詞が多い」という知見と類似性があると言える。
 年度の後半は、Lijffijtらによる2012年のICAME第33回大会での発表資料"Chi-square test considered harmful: Better methods for testing the significance of word frequencies"で提案されたBootstrap test法を用いて、対数尤度比を用いた方法による高級紙語と大衆紙語の検出結果の比較を行った。このBootstrap testは、語の分布情報を考慮しているので、ごく一部のテクストによる過剰な影響を低減できる点が優れている。ただし、このBootstrap testを適用するには、2つの群に分かれる複数のテクストの語彙頻度データが必要であるため、BoEのデータには適用できず、BNCの大衆紙(Daily MirrorとToday)のファイルについては収録されているファイル単位で、高級紙(The Daily Telegraph, The Guardian, The Independent)については各ファイルに記載されている刊行日毎に、それぞれ語彙頻度データをまとめて各新聞のデータ数やサイズの均衡を図った。比較の結果、例として、Bootstrap test法・対数尤度比検定でそれぞれ有意水準0.01に対応する基準値で判定した場合、副詞のタグがついている語に関しては、Bootstrap test法によって検出された特徴語は184語、対数尤度比で検出された語は373語で、前者はすべて後者に含まれており、矛盾した結果は見られなかった。すべての品詞について同様であるかどうかはまだ確認ができていないが、副詞についての結果からは複数のテクストからなる2群間の特徴語を探索する際、語の分布情報を考慮したり、あるいは該当数を絞りたい場合はBootstrap testを採用する利点があると言えそうである。今後はBootstrap test法で得られた結果について、引き続き分析を進めていく予定である。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

[論文]
高見敏子 (2012) 『Bank of EnglishとBritish National Corpusにおける英国全国紙のPOSタグ分布』, The Northern Review, 38, 41-69.
[http://eprints.lib.hokudai.ac.jp/dspace/handle/2115/49455]

[口頭発表]
高見敏子「機能語の語彙頻度から探るイギリスの高級紙と大衆紙の違い」(研究発表・講演会「計量的言語研究の諸相」、2012年9月19日、北海道大学)[http://www.hucc.hokudai.ac.jp/~p16537/event/20120919.htmlに概要]

高見敏子「特徴語検出の2方法による結果の比較?対数尤度比を用いる方法とBootstrap法」(統計数理研究所言語系共同利用研究グループ合同発表会「言語研究と統計2013」、2013年3月28日、統計数理研究所)[http://language.sakura.ne.jp/s/stat.htmlに概要]


研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

(1)2012年9月20日に北海道大学(札幌市)にて2012年度の言語系共同利用研究5グループで中間発表会を行った。参加者数は十数名。

(2)「言語研究と統計2013」と題して、2013年3月27・28日に、立川市の統計数理研究所にて、2012年度の言語系共同利用研究7グループによる年度末の合同研究発表会を行った。出席者数は発表者と聴講者を併せて両日とも50数名。

 

研究参加者一覧

氏名

所属機関