平成61994)年度 共同研究A実施報告書

 

課題番号

6−共研−94

専門分類

8

研究課題名

タグ付き英語文章コーパスの統計的解析

フリガナ

代表者氏名

タカハシ カオル

高橋 薫

ローマ字

所属機関

豊田工業高等専門学校

所属部局

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

5 人

 

 

 

研究目的と成果(経過)の概要

15種類のカテゴリーからなる百万語の英文コーパス(LOB Corpus)のそれぞれの単語に付与されているタグ(品詞情報に関する134種類の記号)に注目し、様々な文体的特徴の数量化をコンピュータを用いて行うことを目的とする。このことによって、従来の語彙レベルの解析が句、節の解析にまで高められることが期待できる。


文法範疇標示コーパスとして代表的な英語文章資料集であるLOB-Corpusは、その文法範疇標示(タグ)が100種類以上と豊富であることと、論説文、小説といったカテゴリーの分類が15種類と多種であることが特徴である。そこで、それぞれのカテゴリーについて、タグの出現頻度に着目し、文体の特徴付けを行った。そのため統計的手法とし数量化III類による解析を進め、出現頻度の高い上位20個のタグで明確な解釈のできる2つの因子が出現した。
これを応用して、タグの無い一般的な英語文章の特徴付けを行うために、上位20個のタグを代表する実際の単語を抽出して、その単語の頻度について同様の多変量解析を行った。その過程でタグには大まかにgrommatical,lexicalの二種類のタグが存在することが明らかになった。また、lexicalタグは文章の内容によって変わるので、文体の特徴付けには適さないため、grammaticalタグのみに注目して解析を進めた。
具体的にはlexicalタグを除いた15種類のgrammaticalタグそれぞれについて、頻度の高い単語を抽出して、多変量解析を行ない、タグの頻度による結果とほぼ同じカテゴリーの分類化が可能となった。これにより、文章の文法的特徴を推測する場合、100余の抽出された単語のみの頻度を算出することによって。その文章が15種類のどのカテゴリーに近いかを判断する方法論が確立されつつあると言える。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

*高橋 薫「文法範疇標示コーパスにおける文体的特徴の推測」コーパス研究会紀要、2号 1995年3月
*高橋 薫「LOB-Corpusにおけるカテゴリーの特徴について」中京大学教養叢、第35 巻第3号 1995年3月

高橋 薫、LOB Corpusの解析 −カテゴリーを特徴付けるタグの抽出−、文献情報のデータベースとその利用に関する研究

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

百万語の各単語の品詞情報を示すタグが論説文、随筆、学術書、各小説等、15種類のカテゴリーでいかなる連結をしているのかを統計的に分析し、比較する。それにより、文体的な特徴が明らかになることを予測して研究を進めている。今までのところ、タグの頻度に注目し、多変量統計解析を行った結果、口語文と文語文には明らかな差異が現れることが判明した。
今後、タグとタグの連結についての各カテゴリーの特徴を明らかにしていきたい。そのため、昨年に引き続き、貴研究所にて統計的な手法を学び、研究についての助言を頂くことにより、高水準の研究結果が得られることと期待している次第であります。


 

研究参加者一覧

氏名

所属機関

駒澤 勉

統計数理研究所

Jin Ming-Zhe

札幌学院大学

古橋 聰

中京大学

村上 征勝

統計数理研究所