平成51993)年度 共同研究A実施報告書

 

課題番号

5−共研−93

専門分類

8

研究課題名

タグ付き英語文章コーパスの統計的解析

フリガナ

代表者氏名

タカハシ カオル

高橋 薫

ローマ字

所属機関

豊田工業高等専門学校

所属部局

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

5 人

 

 

 

研究目的と成果(経過)の概要

15種類のカテゴリーからなる百万語の英文コーパス(LOB Corpus)のそれぞれの単語に付与されているタグ(品詞情報に関する134種類の記号)に注目し、様々な文体的特徴の数量化をコンピュータを用いて行うことを目的とする。このことによって、従来の語彙レベルの解析が句、節の解析にまで高められることが期待できる。


文法範疇標示コーパスとして代表的な英語文章資料集であるLOB-Corpusは、その文法範疇標示(タグ)が100種類以上と細分化されていることと、論説文、小説といったカテゴリーの分類が15種類と豊富であることが特徴である。そこで、それぞれのカテゴリーについて、タグの出現頻度に着目し、文体の特徴付けを行った。そのため統計的手法として、数量化第3類により解析を進め、その結果出現頻度の高い上位20個のタグについて、解析を行い、2つの重要な因子が現れた。特に大きく文章は口語的文章と論述的文章に区別でき、また他の観点として、特殊主題型と一般的主題型に区別できると言える。
さらに数量化3類によってそれぞれのカテゴリーと使用の関連の高いタグについての情報を得ることができた。
また、各カテゴリーの文体的特徴をさらに把握するためにタグとタグの連結について同様の手法を用い、これにより、口語文、論述文の文体にどのような差異があるかが、判明した。具体的には上位頻度の単数普通名詞、前置詞、the/no、形容詞、複数普通名詞、等位接続詞、副詞等に顕著な差異が現れたが、冠詞のa/anには口語文、論述文に差異が現れなかった。今後このタグの連結に関する結果より、英語文章についてより詳細な特徴を把握できるものと考える。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1。高橋 薫 「検索処理における頻度についての問題」 英語コーパス研究第1号 1994年
2。古橋 聰・高橋 薫 「LOB-Corpusにおけるカテゴリーの特徴について−多変量統計解析法による分析−」中京大学教養論叢に掲載予定

1。高橋 薫「タグ付き英語コーパスの統計的解析について」文献情報のデータベースとその利用に関する研究会 1994年3月
2。高橋 薫「タグ付き英語コーパスの統計的解析について」英語コーパス研究会 1994年3月

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

百万語の各単語の品詞情報を示すタグが論説文、随筆、学術書、各小説等、15種類のカテゴリーでいかなる連結をしているのかを統計的に分析し、比較する。それにより、文体的な特徴が明らかになると推測できる。
しかしながら英語学者は経験的にそれらを特徴づけることはできても、解析の手法における知識が少ないため、積極的かつ、詳細な解析にまで及ばないのが現状であった。そのため、貴研究所にて統計的な手法を学び、研究についての助言を頂くことにより、高水準の研究結果が得られることと期待している次第であります。


 

研究参加者一覧

氏名

所属機関

駒澤 勉

統計数理研究所

Jin Ming-Zhe

札幌学院大学

古橋 聰

中京大学

村上 征勝

統計数理研究所