平成212009)年度 重点型研究実施報告書

 

課題番号

21−共研−4309

分野分類

統計数理研究所内分野分類

j

主要研究分野分類

6

研究課題名

言語データのタイプと適用可能な統計的手法の分類

重点テーマ

言語と統計

フリガナ

代表者氏名

タカミ サトコ

高見 敏子

ローマ字

Satoko Takami

所属機関

北海道大学

所属部局

大学院メディア・コミュニケーション研究院

職  名

准教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

2 人

 

研究目的と成果(経過)の概要

 いわゆる「文系」の研究者が多い言語研究においても,統計学的手法を利用した論文が増えつつあり,統計学を学びたいと考える言語研究者も増えているものと思われる。しかし市販されている統計学の入門書で扱われている例は言語データとはかなり性格の異なるもので,そのまま言語研究に適用して良いのか疑問に思うものが少なくない。言語研究者が容易に疑問が解決できるような統計学の入門書が入手できるようになることが望ましいが,その前段階として,言語研究における統計学的手法のニーズを把握する必要があると思われる。そこで,特にコーパス言語学の分野で発表された,統計学的手法を用いた言語研究を調査し,どのようなタイプの言語データに対して,どのような統計的手法が用いられ,どのような分析が行われているか,例を集めて分類・整理することが本研究の目的であった。
 具体的には,英語コーパス学会の学会誌『英語コーパス研究』(1994年から2009年まで)の研究論文において用いられた統計学的手法・指標,適用されたデータの種類,分析の概要を調査した。(平均値や%,標準偏差を表やグラフで示しているだけの研究論文は対象外とした。)
 使われていた統計学的手法・指標には,カイ二乗検定・ANOVA・林の数量化?類・因子分析・主成分分析・ピアソンの積率相関係数・クラスター分析・スピアマンの順位相関係数・赤池情報量基準・クロンバックα係数などがあった。適用されたデータの種類は多くは語句・品詞・構文等の頻度や生起率であったが,意味・文法機能・生起位置・テキストジャンル等,区分の仕方は多様であった。調査結果では言語データの種類の多さに比べて各適用例が少なく,言語データの種類と適用可能な統計学的手法の関係を体系的にまとめるには至らなかったものの,研究報告会での反応から,言語研究における統計学的手法・指標の適用例をまとめるだけでも,言語研究者・指導者にとって研究や教育に十分有益な情報になることが確認できた。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

 「言語と統計2010」(重点テーマ「言語と統計」第2回公開研究報告会)において成果発表を行った。(発表題目は「言語データのタイプと適用可能な統計的手法の分類」)

(調査結果に2010年度の情報を加えExcelファイルにまとめたものを下記URLで公開予定。
http://www.hucc.hokudai.ac.jp/~p16537/ISM/index.html)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

 ?重点テーマ「言語と統計」の他の3グループとの合同研究会(非公開)に参加
日時:2009年8月11日
  場所:統計数理研究所(港区)
  参加者数:15名(発表者+重点テーマ企画責任者)

 ?重点テーマ「言語と統計」第2回公開研究報告会(公開)に参加
  日時:2010年3月27・28日
  場所:統計数理研究所(立川市)
  参加者数:56名(うち発表者15名)

 

研究参加者一覧

氏名

所属機関

前田 忠彦

統計数理研究所