平成10(1998)年度 共同研究A実施報告書
課題番号 |
10−共研−91 |
専門分類 |
8 |
|||||
研究課題名 |
大規模英語コーパスの統計的解析 |
|||||||
フリガナ 代表者氏名 |
タカハシ カオル 高橋 薫 |
ローマ字 |
|
|||||
所属機関 |
豊田工業高等専門学校 |
|||||||
所属部局 |
|
|||||||
職 名 |
助教授 |
|||||||
所在地 |
|
|||||||
TEL |
|
FAX |
|
|||||
|
|
|||||||
URL |
|
|||||||
配分経費 |
研究費 |
0千円 |
旅 費 |
0千円 |
研究参加者数 |
3 人 |
研究目的と成果(経過)の概要 |
本研究は1億語を越える大規模英語コーパスの統計的解析を目的とする。そのため、今までの小規模コーパス(LOB Corpus)で蓄積した解析のノウハウをどのように大規模コーパスで生かすことができるのかが検討課題となる。特に使用予定のコーパスは、以前に比べジャンル分けのパラメータのみならず、筆者の年齢、地区等様々な情報が付加されているため、それらをどのように扱うかも重要な点である。 |
当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等) |
{A Linguistic Interpretation of the Third Powerful Dimension in the LOB Corpus} 英語コーパス研究、第6号、英語コーパス学会(1999) |
研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。 |
使用予定のThe British National Corpus (以下BNC)は現在のところ、ヨーロッパ連合圏外では使用が許されていないが、近々公開の予定である。このコーパスは1億語の語彙数を持つ他に、文法範疇標示が付しており、それにより、ある程度のジャンル別の文体的特徴をつかむことができる。以前の解析では単にテキストジャンル(小説、論説文、学術書等)の区別に基づいて、それらの類似性を文法範疇標示の頻度を数量化三類によって分析することによって明らかにしたが、今回はBNCに他に筆者の年齢、地区、性別、社会的地位等様々な情報が付加されているため、それらの持つ特徴をどのように生かすかが最大の研究課題となる。主に数量化三類を活用するが、とりあえず、言語学的な見地に基づいて、特定のパラメータについて注目するのではなく、むしろ、全体の中から、どのパラメータに言語学的に意味のある差異が現れるのかについて、研究所に助言を求めたい。(但し、公開が遅れる場合には、インターネットアクセスのよる方法をとる) |
研究参加者一覧 |
|
氏名 |
所属機関 |
神谷 昌明 |
豊田工業高等専門学校 |
村上 征勝 |
統計数理研究所 |