平成91997)年度 共同研究A実施報告書

 

課題番号

9−共研−106

専門分類

8

研究課題名

テキストの起承転結に注目した semantic feature の抽出

フリガナ

代表者氏名

タカハシ カオル

高橋 薫

ローマ字

所属機関

豊田工業高等専門学校

所属部局

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

3 人

 

 

 

研究目的と成果(経過)の概要

本研究はtext typologyの研究の前段階として、比較的長い完結した英語コーパスのテキストに関して語彙リストを作成して、文章が「起承転結」で構成されているという前提で、頻度上位の単語に含まれるsemantic featureの頻度に関して、テキスト中の「起承転結」で変化する様相を多変量統計解析法で解析し、意味的な尺度の存在を確認したい。さらに言語学的な解釈を行い、後のtext typologyの研究に応用すること考えている。


大規模英語コーパスには、文章の位置を示すタグが付されている。こと前部、中盤、後部のパラメータに注目して、言語学にどのような特徴を示すか多変量統計解析法(数量化3類)を用いて分析した。
具体的には、出現頻度の高い上位30個のタグ(文法範疇標示)を抽出して、標準化した頻度について、数量化3類により分析して、様々な文章ジャンルでの特徴を見た。
その結果、文章の位置というパラメータにより、第1因子に文法的には「時制」と解釈できる因子が現れた。
たとえば、フィクションや国際情勢などのジャンルについては、前部が現在形による表現が多用され、中盤・後部に過去形が多用されている。
また、自然科学の分野では、前部が過去、中盤・後半が現在形となっている。
さらに、第2因子については、言語学的な観点から言うと、表現が断定的な言い回しであるか、あるいは、控えめな表現であるかの指標であると考えられる(この結論については今後の研究課題である)。
いずれにしても当初立てていた仮説、すなわち文章位置を特徴づけるある特定の名詞の出現を予想していたが、時制に関わる語の関連が強いことが判明したことになる。
その他、文長が文法構造の複雑さを表わす尺度になるかどうかについても検討してみた。
この大規模コーパスにおいては、会話文・フィクション・ノンフィクション以外の記述文の3種類に文長に顕著な差が現れた。
またそれは、同様の数量化3類の解析における第1因子(文法構造の複雑さを表す因子)の様相と類似していたため、文長が長くなれば、一般的には文章構造が複雑になることも検証された。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

A study of Text Typology: Multi-Feature and Multi-Dimensional Analyses {Kaoru Takahashi, Technical Report of University centre for computing corpus research on language in Lancaster University (1997)


研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

本研究は、コーパスに文法範疇標示を必要とせず、書き言葉のみを扱うため多種のコーパスを使用できる。また、古典的ではあるがLOB Corpusの書き言葉における15種類のジャンル分けを参考にジャンル間の意味的尺度の性質の差異についても考察したい。研究の第一段階は主にテキストファイルのコーパス収集を中心に行う。次にそれぞれのジャンルでの語彙リストの上位の頻度の中でsemantic featureとして見なすことができるものを抽出し、テキスト中の「起承転結」(具体的にはテキストを4分割する)でその頻度が変化する様相を多変量統計解析法で解析し、それによって、どのような尺度が現れるか、また、その尺度の出現がジャンルでどのような差異として現れるかを観察する。ここで、この多変量解析法の活用について統計数理研究所よりご指導頂く。


 

研究参加者一覧

氏名

所属機関

古橋 聰

中京大学

村上 征勝

統計数理研究所