平成192007)年度 一般研究2実施報告書

 

課題番号

19−共研−2027

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

多変量アプローチによるテキストの計量研究

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata, Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科 応用言語技術論講座

職  名

准教授

配分経費

研究費

40千円

旅 費

275千円

研究参加者数

9 人

 

 

研究目的と成果(経過)の概要

本共同研究は,言語工学,計量言語学・コーパス言語学,多変量解析など関連諸分野の知見を有機的に統合したテキスト分析の方法論を開発し,量的観点からテキストにアプローチする可能性を探る試みである。このプロジェクトは大きく分けて二つの層で構成されている。一つは研究基盤となる電子化言語資料(コーパス)やセマンティック・ウェブからのデータ抽出法の開発,もう一つは抽出したデータの統計学的分析である。言語データの統計学的解析の事例としては,語彙,コロケーション,意味構造などのレベルにおける言語使用の実態研究,言語使用域間の言語変異や文体差の問題などの考察が挙げられる。本研究では特に,対応分析,主成分分析,判別分析等,多変量解析のツールを用いたテキストの言語特徴抽出のための方法論を比較検討し,データマイニング,テキストマイニングなどの応用事例を視野に入れた高精度のテキスト分析法・文体分析法の提案を目的とした。
 本年度の研究計画では,16世紀フランス詩(岩根),英国近代小説の文体(田畑),グロッサリー・マイニング(緒方),共感福音書の計量分析(三宅),科学技術英文におけるコロケーション(後藤),日本人英語学習者による「創造的」英語使用の量的分析(藤原)という個別の研究テーマを設定した。多様な研究テーマではあるが,全研究課題に通底するのは,テキストデータ分析の方法論として,主成分分析,対応分析など多変量解析を用いて語彙生起頻度表を分析するという共通の手法である。
 各自の研究課題を進める過程で統計数理研究所,データ科学研究系,前田忠彦准教授に統計解析法およびデータ分析法の要点,個別の課題それぞれについて改善すべき問題点等に関する指導と助言を受けた。さらに,平成18年8月7日(月)と平成19年2月13日(火)に統計数理研究所へ出張して開催した研究会と合同セミナー「英語研究と統計2007」において,前田准教授および他の参加者との質疑応答,討議で研究方法論の精緻化へ向けた情報交換や指導・助言を受けたことは極めて有益なことであった。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

ワークショップ口頭発表「言語研究と統計」(統計数理研究所,2008年3月30日開催
後藤 一章 「コーパス分析に基づく関連動詞の抽出とその利用」
岩根  久 「音要素に着目したフランス詩のデータマイニング」
藤原 康弘 「日本人英語学習者の「創造的」英語使用における量的分析」
三宅 真紀・田畑 智司 「Gentleman in Dickens: 多変量アプローチによるコロケーション分析」

『電子化言語資料分析研究2007−2008』(大阪大学大学院言語文化研究科,2008年4月)
後藤 一章 「BNCに基づくコロケーションデータベース開発の試み」(pp. 3−12.)
三宅 真紀 「共起語に基づく福音書意味ネットワーク特性の分析」(pp. 13−22.)
緒方 典裕 「グロッサリー・マイニングに向けての文字列比較アルゴリズムのサーベイ」(pp. 23−44.)
岩根  久 「統計処理言語Rを用いたテキストデータ加工のテクニック3−16 世紀フランスのソネのデータを例として−」(pp. 45−54.)
藤原 康弘 「日本人英語学習者による「創造的」英語使用の量的分析」(pp. 55−64)
田畑 智司 「多変量アプローチによるテキストマイニング−DickensとSmollettにおける最上級を変数として−」(pp. 65−71.)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

平成19年9月26日(水),他二件の統計数理研究所共同利用研究課題(課題番号3007研究代表者:神戸大学国際コミュニケーションセンター/総合人間科学研究科・助教授・石川慎一郎,課題番号2051研究代表者:名古屋工業大学情報メディア教育センター・教授・小山由紀恵)と本研究課題との合同研究会を統計数理研究所にて開催した(参加者数12名)

平成20年3月30日(日),上記の共同利用研究グループと本研究課題との合同セミナー「言語研究と統計2007」を統計数理研究所にて開催した(一般の参加者も加えた参加者数32名)

 

研究参加者一覧

氏名

所属機関

石部 尚登

大阪大学

岩根 久

大阪大学

緒方 典裕

大阪大学

紙谷 一彦

大阪大学

後藤 一章

大阪大学

藤原 康弘

大阪大学

前田 忠彦

統計数理研究所

三宅 真紀

大阪大学