平成172005)年度 一般研究2実施報告書

 

課題番号

17−共研−2058

専門分類

8

研究課題名

言語コーパス解析における共起語検出のための統計手法の比較研究

フリガナ

代表者氏名

イシカワ シンイチロウ

石川 慎一郎

ローマ字

Ishikawa Shinichiro

所属機関

神戸大学

所属部局

国際コミュニケーションセンター

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

7 人

 

 

 

研究目的と成果(経過)の概要

[概要と目的] 
言語コーパス解析においては,語の出現を個別的に見るだけでなく,共起語の生起状況を客観的に調査する必要がある.単語Xに対して特徴的に共起する単語Yを検出しようとする場合, Yの単純頻度(Raw Frequency)以外に,Tスコア,log-logスコア,MI(Mutual Information,相互情報量)スコアなどの統計値が考えられる.
しかしながら,それぞれの統計値の意味合いについてはコーパス言語学者の間でも十分な共通理解がなされていない.加えて,どの統計値がもっとも分析者の目的にかなうものであるかは,従来,研究者個々の経験則によって処理され,分析しようとする言語テクストのジャンルや分量と統計手法の適合性についての客観的研究はほとんどなされていない.
 以上の現状をふまえ,本研究では,まず,共起語検出のために使用可能な各種の統計手法を比較・検証する.ついで,言語テクストのジャンル・分量ごとに,もっとも適性が高いと思われる統計手法を明らかにする.

[経過]
 本研究においては,言語コーパスから共起語を抽出する際の統計手法について共同利用研究を行った。2度の会合(1回目は代表者のみ,2回目は分担者含)と,3月に開かれた共同利用研究成果発表会を通して,問題を広く共有するとともに,専門的知見からの助言をふまえた問題の掘り下げが行われ,当初の研究目的は達成できたと考えられる。

[成果]
 本共同利用研究の成果発表のため,3月末に,統計数理研究所において,広く言語統計に関心のある研究者を集めて,「公開セミナー:英語研究と統計」を実施した。セミナーでは,研究所前田助教授の講演に加え,共同研究分担者,および,外部研究者がそれぞれの専門的背景をいかして,研究発表を行い,多角的な問題へのアプローチを試みた。研究代表者の石川は,「言語コーパスからのコロケーション検出の手法:基礎的統計地に着いて」の題で発表を行い,頻度,Tスコア,log-logスコア,MIスコアなどの特徴を概観し,分析対象データごとに分析指標との相性があることを実証的に明らかにし,加えて各種統計値を自動計算するエクセルマクロについて紹介を行った。聴講参加者は50名近くとなり,事前申込みの段階で受付を締め切るなど,当初の予想を超えて,大きな反響を呼んだ。
また,上記セミナーのプロシーディングズをかねるものとして,共同研究リポート190号『言語コーパス解析における共起語検出のための統計手法の比較研究』が刊行された。同レポートは9本の論文を掲載し,全100ページのものとなった。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

●HP: 神戸大学石川研究室ホームページ内 共同利用研究セミナー情報公開ページ
http://www11.ocn.ne.jp/~iskwshin/toukei.html

●セミナー発表(2006/3/28 共同利用研究セミナー「英語研究と統計」における発表)
前田 忠彦* 統計数理研究所 助教授 ワークショップ: 言語研究と統計?入門?
石川 慎一郎* 神戸大学     助教授 共起語検出に用いられる統計指標の比較
高見 敏子* 北海道大学 助教授 コーパスにおける出現度数の高低とlog-likelihood統計量の関係
小山 由紀江* 名古屋工業大学 教授 ESPコーパスの特徴的共起語検出における統計手法
石川 有香* 名古屋工業大学 助教授 工学系ESP教育のための語彙リストの作成
田畑 智司* 大阪大学  助教授 文体への統計学的アプローチ
中尾 桂子* 神戸学院大学 非常勤講師 日本語のテキストにおける記述内容・文体・品詞の関連性
伊藤 光彦 豊橋技術科学大学 教授  英語母語話者のブリタニック系ケルト語彙の認知度に関する統計的研究
坂本 智香 神戸学院大学 非常勤講師  職業分野別医療英語ESP語彙表構築の試み
水本 篤  大阪工業大学 非常勤講師  語彙サイズテストは何を測定しているのか?
後藤 一章 大阪大学大学院 博士後期課程  学術英語における典型的共起表現の選定の試み
石部 尚登 大阪大学大学院 博士後期課程  コーパスに基づく社会言語学的研究のための統計指標の利用

●論文(共同研究リポート執筆論文)
石川 慎一郎* 神戸大学 助教授 共起語検出に用いられる統計指標の比較
高見 敏子* 北海道大学 助教授 コーパスにおける出現度数の高低とlog-likelihood統計量の関係
小山 由紀江* 名古屋工業大学 教授 ESPコーパスの特徴的共起語検出における統計手法
石川 有香* 名古屋工業大学 助教授 工学系ESP教育のための語彙リストの作成
田畑 智司* 大阪大学 助教授 文体への統計学的アプローチ
坂本 智香 神戸学院大学 非常勤講師 職業分野別医療英語ESP語彙表構築の試み−救急救命士(EMT)に関する米語文献コーパスとFROWNコーパスの比較に基づく特徴語の抽出−
水本 篤 大阪工業大学 非常勤講師 語彙サイズテストは何を測定しているのか?
後藤 一章 大阪大学大学院 博士後期課程学生 学術英語における典型的共起表現の選定の試み
石部 尚登 大阪大学大学院 博士後期課程学生 コーパスに基づく社会言語学的研究のための統計指標の利用

●そのほか論文(※共同利用研究の成果を一部含む)
石川慎一郎「日本人児童用英語基本語彙表開発における頻度と認知度の問題:母語コーパスと対象語コーパスの頻度融合の手法」『信学技報』(電子情報通信学会)TL2005,pp.43-48

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

公開セミナー英語教育と統計
●日時 2006年3月28日(火) 10:20 受付開始 〜 18:00
●会場 統計数理研究所(地下鉄日比谷線広尾駅下車徒歩5分)
    〒106-8569 東京都港区南麻布4-6-7 電話:03(3446)1501(代表)
●発表者 12名
●聴講参加者 約50名(発表者含)

 

研究参加者一覧

氏名

所属機関

石川 有香

名古屋工業大学

小山 由紀江

名古屋工業大学

高見 敏子

北海道大学

田畑 智司

大阪大学

中尾 桂子

神戸学院大学

前田 忠彦

統計数理研究所