平成71995)年度 共同研究A実施報告書

 

課題番号

7−共研−86

専門分類

8

研究課題名

タグ付き英語文章コーパスの統計的解析

フリガナ

代表者氏名

タカハシ カオル

高橋 薫

ローマ字

所属機関

豊田工業高等専門学校

所属部局

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

4 人

 

 

 

研究目的と成果(経過)の概要

データベース化された英語文章資料,すなわちコーパスの文章範疇標示に注目して,論述文章・小説等,様々な文章形態でその文法範疇標示の出現頻度や接続関係にどのような特徴が現れるのかを多変量解析法を用いて分析する。現在までのところ,代表的なコーパスである,LOB-Corpusを用いて分析を進めているが,文法範疇標示であるタグの設定について問題点があり,より理想的なタグの設定が望まれるところである。この点も検討する予定である。


LOB Corpusは論述文から小説にいたるまで、15種類のカテゴリーに分類されているためそれぞれのカテゴリーの文体的特徴を比較することが可能となる。また、この百万語のでデータベースには、それぞれの単語に品詞範疇標示が付してあるため、それらの標示の頻度に基づいて文法的特徴を比較して、カテゴリー間の類似性や相違を文法構造を中心に検討することが可能となる。
本研究では数量化3類を用いることによって、多数の文法事項を総括的に分析し、各カテゴリーの統語的特徴を論じることができた。しかしながら、この時点で様々な問題点が浮かび上がる。なかでも、結果として現れるカテゴリー分類のための指標は、主に予め設定された品詞範疇標示の頻度に関する情報に基づくため、いかなる文法事項を標示の対象にするかによって、数量化3類によるカテゴリー間の文体的特徴の現れ方に相違が出てくることが予想される。そこで、以前より研究の着眼点はどのような言語的情報をコーパスが持つべきかを検討することにあった。そのため、LOB Corpusにおける品詞範疇標示の接続関係に注目して、その接続関係から文体的特徴を抽出した。
これによって、コーパスにおける文体論の研究は表層的な文法レベルの解析のとどまらず、さらに高次な統語レベルまでを扱うべきことを示唆したといえる。また、意味論の観点から論じると、ある特異な名詞的語句が、文章を談話構造のレベルで分類可能であることをも示唆したといえる。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1。 長澤 唯史・高橋 薫「MICRO-OCPによる英語の構文解析ー英語小説の文体解析ー」豊田工業高等専門学校研究紀要第28号 1995年
2。 N Collier and K Takahashi "Sentence Alignment in Parallel Corpora:The Asahi Corpus of Newspaper Editorials" Centre for Computational Linguistics, University of Manchester Institute of Science and Technology Report No 95/11


研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

タグの頻度は文章形態によって違うため,それはジャンルによる違いとして現れる。数量化3類を用いることによって,文書形態を区別する要因を規定することができる。今までのところ,統語的な要因,語彙的要因が主な要因であることが判明した。しかし,統語的要因をさらに探ると,タグの接続関係より,細かな特徴を発見できる。接続関係は以前より研究課題としていて,LOBーCorpusについて,その139個のタグの接続関係に注目して,ジャンル別の文体的特徴を抽出しているが,このコーパスのタグの設定それ自体にも問題があることが判明した。そのため文体的特徴を明らかにするために最適なタグ付けを目指す必要も生じた。どのようなタグを設定すべきかは,数量化3類による主な成分の出現が解釈のつくものであるかどうかによると考えられる。このように最適なタグ設定を行うための検証手段として,統計数理研究所との共同研究により助言を得て研究を進めていきたいと計画している。


 

研究参加者一覧

氏名

所属機関

駒澤 勉

統計数理研究所

古橋 聰

中京大学

村上 征勝

統計数理研究所