平成232011)年度 一般研究2実施報告書

 

課題番号

23−共研−2026

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

イギリスの巨大コーパスにおける新聞サブコーパスの統計学的言語比較研究

フリガナ

代表者氏名

タカミ サトコ

高見 敏子

ローマ字

TAKAMI SATOKO

所属機関

北海道大学

所属部局

大学院メディア・コミュニケーション研究院

職  名

准教授

配分経費

研究費

40千円

旅 費

53千円

研究参加者数

2 人

 

 

研究目的と成果(経過)の概要

 本研究の目的は、イギリスの巨大コーパスであるBank of English(BoE)やBritish National Corpus(BNC)に含まれる複数の新聞サブコーパスの語彙頻度・品詞比率などのデータに多変量解析を適用して、高級紙・大衆紙という対立だけでなく、より多角的な視点から分析を深めることである。今年度は改めて作り直した品詞(part-of-speech, POS)タグの相対頻度データにクラスター分析(ウォード法、平方距離を選択)を適用して、BoEとBNCのそれぞれ大衆紙2紙、高級紙3紙の計5紙の英国紙サブコーパス相互の非類似度(距離)関係を調べた。(BNCはテキストファイルの集合体であり、「サブコーパス」という分類はなされていないが、ここでは便宜上同じ新聞のテキストを集めたものを「サブコーパス」と呼ぶこととする。)
 その結果、まずどちらのコーパスにおいても、大衆紙と高級紙の間の非類似度がもっとも大きいことが確かめられ、POSタグ分布という抽象的なレベルにも大衆紙と高級紙の文体の差が表れることがわかった。加えてBoEとBNCの結果を合わせて解釈してみると、大衆紙・高級紙のそれぞれのクラスター内の各新聞サブコーパスにおける非類似度にも差があり、例えば大衆紙の中ではThe Sun(正確にはThe SunとThe News of the World を合わせたサブコーパス)が他の2紙(TodayとThe Daily Mirror)ともっとも離れており、高級紙の中ではThe Daily Telegraphが他の3紙(The Times, The Independent, The Guardian)ともっとも離れているらしいことがわかった。もとのPOSタグの相対頻度データを単純にみるだけでは直感的にはさほどの違いがあるように思われないが、クラスター分析を行うことで各サブコーパスの分布の非類似度の関係が明確になり、視覚的にもわかりやすい結果を得ることができた。
 よく大衆紙と高級紙の文体について、例えば、大衆紙は"colloquial and informal"であり、高級紙は"specialised and technical"である(Jucker 1992:7)と評される。そこでLeech et al.(2001:300, 204)で発表されている、BNCにおける様々なドメインを特徴づけるPOSタグの一覧表の上位項目と比較してみると、大衆紙クラスター・高級紙クラスターを特徴づける品詞タグは、話し言葉・書き言葉を特徴づける品詞タグよりも、imaginative writing・informative writingを特徴づける品詞タグと共通しているものが多かった。大衆紙はcolloquialでinformalであってもやはり書き言葉であるので、本当の話し言葉との違いは大きいということのようである。一方、大衆紙と言えど新聞であるからにはinformative writingには違いないはずであるが、大衆紙クラスターを特徴づけるPOSタグにはimaginative writingを特徴づけるPOSタグとの共通性がみられることから、ジャンルが異なっても娯楽性が高い書き言葉には何らかの文体上の類似性があるという可能性が考えられる。
 文体の違いをより詳細に検討するには、やはり個々の語について調べることが必要になってくる。本研究で得たPOSタグ分布に関する結果を参照しながら、大衆紙と高級紙の文体の違いがどのような点にあるのかについてさらに研究を進めていきたい。

[引用文献]
Jucker, A. (1992) _Social Stylistics: Syntactic Variation in British Newspapers_. Berlin: Mouton de Gruyter.
Leech, J., Rayson, P, & Wilson, A. (2001) _Word Frequencies in Written and Spoken English_. Harlow, UK: Pearson Education.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

高見敏子 (forthcoming) 「Bank of EnglishとBritsh National Corpusにおける英国全国紙のPOSタグ分布」 『The Northern Review』No. 38, pp.1-29. [2012年5月刊行予定]
(刊行後、http://www.hucc.hokudai.ac.jp/~p16537/index5.htmlにて同論文のPDF版を公開予定)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

2012年3月7日(水)〜8日(木)に統計数理研究所で開催された統計数理研究所言語系共同研究グループ合同発表会「言語研究と統計2012」にて口頭発表(発表題目「BNCとBoEにおける英国全国紙の語彙頻度データの分析」)。出席者数:55名程度。

 

研究参加者一覧

氏名

所属機関