平成9(1997)年度 共同研究A実施報告書
課題番号 |
9−共研−106 |
専門分類 |
8 |
|||||
研究課題名 |
テキストの起承転結に注目した semantic feature の抽出 |
|||||||
フリガナ 代表者氏名 |
タカハシ カオル 高橋 薫 |
ローマ字 |
|
|||||
所属機関 |
豊田工業高等専門学校 |
|||||||
所属部局 |
|
|||||||
職 名 |
助教授 |
|||||||
所在地 |
|
|||||||
TEL |
|
FAX |
|
|||||
|
|
|||||||
URL |
|
|||||||
配分経費 |
研究費 |
0千円 |
旅 費 |
0千円 |
研究参加者数 |
3 人 |
研究目的と成果(経過)の概要 |
本研究はtext typologyの研究の前段階として、比較的長い完結した英語コーパスのテキストに関して語彙リストを作成して、文章が「起承転結」で構成されているという前提で、頻度上位の単語に含まれるsemantic featureの頻度に関して、テキスト中の「起承転結」で変化する様相を多変量統計解析法で解析し、意味的な尺度の存在を確認したい。さらに言語学的な解釈を行い、後のtext typologyの研究に応用すること考えている。 |
当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等) |
A study of Text Typology: Multi-Feature and Multi-Dimensional Analyses {Kaoru Takahashi, Technical Report of University centre for computing corpus research on language in Lancaster University (1997) |
研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。 |
本研究は、コーパスに文法範疇標示を必要とせず、書き言葉のみを扱うため多種のコーパスを使用できる。また、古典的ではあるがLOB Corpusの書き言葉における15種類のジャンル分けを参考にジャンル間の意味的尺度の性質の差異についても考察したい。研究の第一段階は主にテキストファイルのコーパス収集を中心に行う。次にそれぞれのジャンルでの語彙リストの上位の頻度の中でsemantic featureとして見なすことができるものを抽出し、テキスト中の「起承転結」(具体的にはテキストを4分割する)でその頻度が変化する様相を多変量統計解析法で解析し、それによって、どのような尺度が現れるか、また、その尺度の出現がジャンルでどのような差異として現れるかを観察する。ここで、この多変量解析法の活用について統計数理研究所よりご指導頂く。 |
研究参加者一覧 |
|
氏名 |
所属機関 |
古橋 聰 |
中京大学 |
村上 征勝 |
統計数理研究所 |