平成222010)年度 重点型研究実施報告書

 

課題番号

22−共研−4210

分野分類

統計数理研究所内分野分類

j

主要研究分野分類

6

研究課題名

イギリスの巨大コーパスにおける新聞サブコーパスの統計学的言語比較研究

重点テーマ

言語と統計

フリガナ

代表者氏名

タカミ サトコ

高見 敏子

ローマ字

Satoko Takami

所属機関

北海道大学

所属部局

大学院メディア・コミュニケーション研究院

職  名

准教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

1 人

 

研究目的と成果(経過)の概要

 本研究はイギリスの新聞(高級紙と大衆紙)における言語的な特徴を計量的に明らかにすることを目的として、イギリスの巨大コーパスであるBank of English(BoE)やBritish National Corpus(BNC)に含まれる複数の新聞サブコーパスから得た語彙頻度・品詞比率等のデータを、さまざまな統計的手法を適用して分析しようとするものである。
 まず、BoEコーパスの5つの英国紙サブコーパス(The Sun + The News of the World, Today, The Independent, The Guardian, The Times)の各語に付されている39の品詞(Part of Speech)タグの比率データについてクラスター分析を行った。大衆紙である前者2つのサブコーパスと高級紙である後者3つのサブコーパスの大きく2つのクラスターに分かれたのは予想されたとおりの結果であるが、高級紙3紙が相互に非常に近い関係にあるのに対し、The SunとTodayはやや離れた関係にあること示され、イギリスの大衆紙がさらにmid-marketとdown-marketに分かれるという読者層の社会階層に対応する言語的な現象を樹形図で視覚的に示す結果となった。
 また、BNCについては、これまで各ファイル毎に扱っていた計356の語数データについて、重点テーマの責任者のアドバイスを受けて各サブコーパスの大きさのバランスを考慮していくつかのファイルをまとめて品詞情報付の語彙頻度データを作り直すこととし、注目する語について、統計パッケージ「R」を利用して箱ひげ図の作成や一元配置の分散分析の適用が可能になった。今後、作り直したデータの分析を進めていくとともに、記事のジャンルによる言語的な特徴などにも分析範囲を広げていきたいと考えている。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

(研究継続中のため、まだ公に発表したまとまった成果はありません。)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

*「言語研究と統計」2010 年度夏の研究会(参加)
  日時:2010年8月31日(火)〜9月1日(水)
  場所:統計数理研究所 会議室1(2 階)、参加人数:20名

 *(もう1件、2011年3月14日(月)〜15日(火)に予定されていた2010年度重点型共同利用研究 「言語と統計」 公開研究報告会の2日目に参加予定でしたが、東日本大震災等の影響で当日の参加者数が少なくなったため会場において初日のみの開催とすることが決定したとのことで、初日は体調不良で欠席させていただいたため、不参加となりました。)

 

研究参加者一覧

氏名

所属機関