平成101998)年度 共同研究A実施報告書

 

課題番号

10−共研−91

専門分類

8

研究課題名

大規模英語コーパスの統計的解析

フリガナ

代表者氏名

タカハシ カオル

高橋 薫

ローマ字

所属機関

豊田工業高等専門学校

所属部局

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

3 人

 

 

 

研究目的と成果(経過)の概要

本研究は1億語を越える大規模英語コーパスの統計的解析を目的とする。そのため、今までの小規模コーパス(LOB Corpus)で蓄積した解析のノウハウをどのように大規模コーパスで生かすことができるのかが検討課題となる。特に使用予定のコーパスは、以前に比べジャンル分けのパラメータのみならず、筆者の年齢、地区等様々な情報が付加されているため、それらをどのように扱うかも重要な点である。


英語の大規模コーパスは現在1億語のものが存在する。これまでは、100万語程度のコーパスの文体の類型を数量化3類を用いて行ってきたが、1億語になったことで有益な情報が得られたので併せてここに報告する。
まず、昨年度の研究結果からも明らかにされたことであるが、テキストジャンルを分類する場合に、第一因子として、literary/colloquialの対比による、統語的複雑さの尺度を、第二因子は意味的な尺度として、specific/generalという概念で区別される尺度の存在を見いだした。
さらに、大規模コーパスの解析の結果、今までのコーパスでは発見できなかった第3因子として、時制に関する尺度の存在を見いだした。そこで、100万語規模のLOB Corpus(イギリス英語の文章資料集)に立ち戻り、第3因子のタグとテキストジャンルの関係を考察することにより、この因子もまた時制に関する因子であることが判明した。
また、この研究過程においてさらに判明したこととして、このような多変量統計解析法によって出現する因子は、あらかじめコーパスに設定されてタグの構成によるところが大きく、実際に今まで行ってきた解析が伝統文法に基づくタグセットであるため、結果として似かよった因子が出現することになる。
そのため、今後は、別種のタグセットを持つコーパスについて、同様の手法により解析する必要があると思われる。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

{A Linguistic Interpretation of the Third Powerful Dimension in the LOB Corpus} 英語コーパス研究、第6号、英語コーパス学会(1999)

「多変量解析法による因子の言語的解釈について」 ? LOB Corpus における第3因子の解釈 ? 英語コーパス学会第12回大会  平成10年10月10日 椙山女学園大学
「英語コーパスを用いた類型論」 「人文科学における数量的分析 IV」及び「第11回文献情報のデータベースとその応用に関する研究会」 平成11年3月18日 総合研究大学院大学葉山キャンパス

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

使用予定のThe British National Corpus (以下BNC)は現在のところ、ヨーロッパ連合圏外では使用が許されていないが、近々公開の予定である。このコーパスは1億語の語彙数を持つ他に、文法範疇標示が付しており、それにより、ある程度のジャンル別の文体的特徴をつかむことができる。以前の解析では単にテキストジャンル(小説、論説文、学術書等)の区別に基づいて、それらの類似性を文法範疇標示の頻度を数量化三類によって分析することによって明らかにしたが、今回はBNCに他に筆者の年齢、地区、性別、社会的地位等様々な情報が付加されているため、それらの持つ特徴をどのように生かすかが最大の研究課題となる。主に数量化三類を活用するが、とりあえず、言語学的な見地に基づいて、特定のパラメータについて注目するのではなく、むしろ、全体の中から、どのパラメータに言語学的に意味のある差異が現れるのかについて、研究所に助言を求めたい。(但し、公開が遅れる場合には、インターネットアクセスのよる方法をとる)


 

研究参加者一覧

氏名

所属機関

神谷 昌明

豊田工業高等専門学校

村上 征勝

統計数理研究所