平成7(1995)年度 共同研究A実施報告書
課題番号 |
7−共研−86 |
専門分類 |
8 |
|||||
研究課題名 |
タグ付き英語文章コーパスの統計的解析 |
|||||||
フリガナ 代表者氏名 |
タカハシ カオル 高橋 薫 |
ローマ字 |
|
|||||
所属機関 |
豊田工業高等専門学校 |
|||||||
所属部局 |
|
|||||||
職 名 |
助教授 |
|||||||
所在地 |
|
|||||||
TEL |
|
FAX |
|
|||||
|
|
|||||||
URL |
|
|||||||
配分経費 |
研究費 |
0千円 |
旅 費 |
0千円 |
研究参加者数 |
4 人 |
研究目的と成果(経過)の概要 |
データベース化された英語文章資料,すなわちコーパスの文章範疇標示に注目して,論述文章・小説等,様々な文章形態でその文法範疇標示の出現頻度や接続関係にどのような特徴が現れるのかを多変量解析法を用いて分析する。現在までのところ,代表的なコーパスである,LOB-Corpusを用いて分析を進めているが,文法範疇標示であるタグの設定について問題点があり,より理想的なタグの設定が望まれるところである。この点も検討する予定である。 |
当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等) |
1。 長澤 唯史・高橋 薫「MICRO-OCPによる英語の構文解析ー英語小説の文体解析ー」豊田工業高等専門学校研究紀要第28号 1995年 |
研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。 |
タグの頻度は文章形態によって違うため,それはジャンルによる違いとして現れる。数量化3類を用いることによって,文書形態を区別する要因を規定することができる。今までのところ,統語的な要因,語彙的要因が主な要因であることが判明した。しかし,統語的要因をさらに探ると,タグの接続関係より,細かな特徴を発見できる。接続関係は以前より研究課題としていて,LOBーCorpusについて,その139個のタグの接続関係に注目して,ジャンル別の文体的特徴を抽出しているが,このコーパスのタグの設定それ自体にも問題があることが判明した。そのため文体的特徴を明らかにするために最適なタグ付けを目指す必要も生じた。どのようなタグを設定すべきかは,数量化3類による主な成分の出現が解釈のつくものであるかどうかによると考えられる。このように最適なタグ設定を行うための検証手段として,統計数理研究所との共同研究により助言を得て研究を進めていきたいと計画している。 |
研究参加者一覧 |
|
氏名 |
所属機関 |
駒澤 勉 |
統計数理研究所 |
古橋 聰 |
中京大学 |
村上 征勝 |
統計数理研究所 |