平成81996)年度 共同研究A実施報告書

 

課題番号

8−共研−102

専門分類

8

研究課題名

文法範疇標示コーパスの統計的解析

フリガナ

代表者氏名

タカハシ カオル

高橋 薫

ローマ字

所属機関

豊田工業高等専門学校

所属部局

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

4 人

 

 

 

研究目的と成果(経過)の概要

データベース化された英語文章資料、すなわちコーパスの文法範疇標示に注目して、さまざまなジャンルの文章形態で、その出現頻度や接続関係にどのような特徴が現れるかを、多変量解析法を用いて分析する。特にジャンルをカテゴリー化する因子の解釈のついては、必ずしも言語学的に明確ではないため、再度、文法範疇標示(タグ)の妥当性という観点から検討する。


英語コーパスの複数のジャンルカテゴリー(LOB Corpusであれば15種類)について、一語毎に付された文法範疇標示(139種類)の頻度に注目して、数量化3類により、ジャンルの類型化、さらに文法範疇標示との関連を見てきた。
重要な点は統計処理の結果、出現する尺度にいかなる言語学的解釈が可能であるか、また、その解釈がどの程度、言語学的な理論とマッチするかである。実際には文法範疇標示は既存のコーパスによって設計されたものを使用するため、自ずとそのタグ付けの概念が尺度の出現に反映させるわけである。
英語に限らず、言語における視点は文法的、意味的に大別される。LOB Corpusにおける範疇標示は主として文法に関連して、一部に意味的な情報を包含するが、数量化3類の結果、見事にこの2軸が出現し、この統計的手法が言語学に応用可能であることを示唆したものといえる。
ジャンル毎の文法的な特徴づけについては、ジャンルとタグとの数値関係によって、さらに昨年度の研究課題であったタグの接続関係によって、かなり明らかになったが、意味情報をジャンル毎の特徴づけの点から論じるまでの研究成果が本年度得られなかったのが、現状である。
ただ、特定の代名詞や固有名詞などが、特定のジャンルで明らかに使用頻度が高いといった結果より、他に文法情報に隠れがちな動詞、助動詞等に関しても、意味情報の視点から、今後研究が進められるものを示唆する形となった。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

・Kaoru Takahashi Typology of Registers in a Written English Corpus: Multi-Feature and Multi-Dimensional Analyses, A thesis submitted to the University of Manchester Institute of Science and Technology for the degree of MPhil (1996)

高橋 薫 英語コーパスの活用について 日本時事英語学会中部支部大会 (1996)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

さまざまなジャンルの文章形態を類型化するとき、その尺度として、文法的あるいは意味的に分類する方法が中心となる。多変量解析法を用いる場合、結果として現れる尺度はコーパスのもつ文法範疇標示の種類に大きく依存するので、尺度の解釈はそのコーパス固有のものであると考えられる。しかし、可能な限り多くの変数を設定し解析することにより、文章の類型化をより的確に行なえるものと考える。これまで、タグの接続関係に注目して、より、統語的な側面を検討することにより、文章の類型化に役立つアイテムを抽出することができた。それが実際に多変量解析の上でどのように役立つのかを、実際のコーパスを解析することにより検証する。


 

研究参加者一覧

氏名

所属機関

駒澤 勉

統計数理研究所

古橋 聰

中京大学

村上 征勝

統計数理研究所