平成222010)年度 重点型研究実施報告書

 

課題番号

22−共研−4204

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

多変量アプローチによるテキストの計量研究

重点テーマ

言語と統計

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata, Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科 言語情報科学講座

職  名

准教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

7 人

 

研究目的と成果(経過)の概要

本共同研究は,計算機科学,自然言語処理,計量言語学・コーパス言語学,多変量解析など諸分野の知見を有機的に統合した,量的観点からテクストにアプローチする可能性を探る試みである。当プロジェクトの研究対象としては,語彙,コロケーション,意味構造などのレベルにおける言語使用の実態研究,高度な数理モデルに基づくテキストマイニング,文学作品の言語特徴の抽出や,使用域間の言語変異や文体差の問題などの考察を挙げることができる。特に,対応分析,主成分分析,判別分析等,多変量解析のツールを用いたテクストの言語特徴抽出のための方法論を比較検討し,データマイニング,テキストマイニングなどの応用事例を視野に入れた高精度のテクスト分析法・文体分析法の提案を目的としている。
本年度の研究計画では,16世紀フランス詩(岩根),19世紀英国ジャーナル集NCSEの文体分析(田畑,三宅,小林),BNCにおけるコロケーションの量的記述(後藤)という個別の研究テーマを設定した。多様な研究テーマではあるが,全研究課題に通底するのは,テクストデータ分析の方法論として,主成分分析,対応分析など多変量解析を用いて語彙や文字列の生起頻度表を分析するという共通の手法である。
各自の研究課題を進める過程で統計数理研究所,データ科学研究系,前田忠彦准教授に統計解析法およびデータ分析法の要点,個別の課題それぞれについて改善すべき問題点等に関する指導と助言を受けたほか,平成22年8月31日?9月1日に統計数理研究所へ出張し研究集会を開いた。また,平成23年3月14日に統計数理研究所にて開催した合同セミナー「英語研究と統計2011」において,前田准教授および他の参加者との質疑応答,討議で研究方法論の精緻化へ向けた情報交換や指導・助言を受けたことは極めて有益なことであった。これらの助言をもとに個別研究課題の修正,発展を行い,研究成果報告書「統計学的アプローチによるテクスト分析 Part II」にまとめた。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

澁谷 竜昇「いわゆる"to be削除"のコーパス分析〜大規模コーパスCOCAの分析を通じて
〜」統計数理研究所共同研究リポート264『統計学的アプローチによるテクスト分析
Part?』3-15。
後藤 一章「パラレルコーパスに基づく英日コロケーション対応付けの試み」統計数理研究所
共同研究リポート264『統計学的アプローチによるテクスト分析Part?』17-26
小林 雄一郎「中高英語検定教科書におけるメタ談話標識の研究」統計数理研究所共同研究リ
ポート264『統計学的アプローチによるテクスト分析Part?』27-37。
岩根 久「叙事詩の音声的特色について?Rを用いた16世紀フランス詩のマイニング?」統
計数理研究所共同研究リポート264『統計学的アプローチによるテクスト分析Part?』
39-44。
三宅 真紀「有向グラフ図による探索的テキストマイニング?English Woman's Journalの計量
分析に向けて?」統計数理研究所共同研究リポート264『統計学的アプローチによるテ
クスト分析Part?』45-59。
 他,メンバーの専攻領域(コーパス文体論,文体統計学,コーパス言語学,フィロロジー:18,19世
紀の英語散文コーパス編纂;機械可読テクストを利用したDickensの言語・文体研究;著者推定法;テ
クスト類型論など.)に関係する一般的な情報として,下記のページにて情報発信を行っている。
http://www.lang.osaka-u.ac.jp/~mmiyake/
http://d.hatena.ne.jp/langstat/
http:/www.lang.osaka-u.ac.jp/~tabata/research.html

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

平成22年8月31日?9月1日,他4件の統計数理研究所共同利用研究課題「重点テーマ2:言語と統計」(課題番号4203「科学技術コーパスの特徴語句抽出とその応用」研究代表者:小山 由紀江・名古屋工業大学大学院工学研究科・教授,(課題番号4206「テキスト・ジャンルに見る文体特徴の計量的分析」研究代表者:石川 有香・名古屋工業大学大学院工学研究科・准教授,課題番号4209「コーパスを用いた記述的言語研究と統計」研究代表者:神戸大学国際コミュニケーションセンター/国際文化学研究科・准教授・石川 慎一郎,課題番号4210「イギリスの巨大コーパスにおける新聞サブコーパスの統計学的言語比較研究」研究代表者:高見 敏子・北海道大学大学院メディア・コミュニケーション研究院・准教授)と本研究課題との合同研究会を統計数理研究所にて開催した(参加者数20名)
平成23年3月14日,上記の共同利用研究グループと本研究課題との合同公開ワークショップ「言語研究と統計2011」を統計数理研究所にて開催した。(東日本大震災のため参加者数15名程度となった)

 

研究参加者一覧

氏名

所属機関

岩根 久

大阪大学

後藤 一章

摂南大学

小林 雄一郎

大阪大学

前田 忠彦

統計数理研究所

三木 望

大阪大学

三宅 真紀

大阪大学