平成242012)年度 一般研究2実施報告書

 

課題番号

24−共研−2028

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

統計学的マイニング技術を応用したデジタルヒューマニティーズ研究

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科・言語文化専攻・言語情報科学講座

職  名

准教授

配分経費

研究費

40千円

旅 費

362千円

研究参加者数

11 人

 

 

研究目的と成果(経過)の概要

本共同研究では,統計学的マイニングの手法を人文学の諸問題のうち,とくにテクスト研究,著者推定研究,比較言語学,文学作品研究,文献学などに応用し,従来型の紙媒体や手作業による分類整理,言語直観や内省だけでは観察分析が困難な現象の解析を試みた。当プロジェクトの研究対象としては,語彙,コロケーション,意味構造などのレベルにおける言語使用の実態研究,文書間類似度を計量するための手法の考察,文学作品の言語特徴の抽出や,作家の執筆年代による言語変異や作家間の文体差の問題などの考察を挙げることができる。特に,ランダムフォレスト,決定木,対応分析,主成分分析,判別分析等のツールを用いたテクストの特徴抽出のための方法論を比較検討し,デジタル時代の人文学研究の方向性を模索した萌芽的側面ならびに実験的側面を備えた研究であったといえる。
 本年度の研究計画では,フランス詩の脚韻(岩根),新約聖書福音書の写本比較(三宅),各種コーパスとの多次元比較による学習者コーパスの位置づけの検討(今尾),芥川龍之介と太宰治の文体比較,日英対訳コロケーション抽出法の研究(後藤),特徴語抽出法のメタ分析(田畑),日本語複合動詞の分布と構文研究(木山),痛みを表す語句の体系的研究(八野)という個々に具体的な研究テーマを設定した。多様な研究テーマではあるが,全研究課題に通底するのは,機械学習の手法や伝統的多変量解析を用いた統計学的マイニング手法により,文字列の生起頻度表を分析するという共通の手法である。
 各自の研究課題を進める過程で統計数理研究所,データ科学研究系,前田忠彦准教授に統計解析法およびデータ分析法の要点,個別の課題それぞれについて改善すべき問題点等に関する指導と助言を受けたほか,平成24年9月19日に北海道大学大学院メディア・コミュニケーション研究院で開催された「計量的言語研究の諸相」にて田畑が研究発表を行った他,9月20日には同じく北海道大学大学院メディア・コミュニケーション研究院にて中間報告会を開催し,三宅,今尾,木山がそれぞれ研究中間報告を行った。また,平成25年3月27,28日に統計数理研究所にて開催した公開報告会・セミナー「英語研究と統計2013」において,前田准教授および他の参加者との質疑応答,討議で研究方法論の精緻化へ向けた情報交換や指導・助言を受けたことは極めて有益なことであった。これらの助言をもとに個別研究課題の修正,発展を行い,統計数理研究所共同研究リポート298『統計学的マイニング技術を応用したテクスト研究』にまとめた。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

統計数理研究所共同研究リポート298『統計学的マイニング技術を応用したテクスト研究』
目次
田畑 智司
「はじめに」 . . . . . . . . . . . . . . . . . 1
小林 雄一郎
「教師あり学習と教師なし学習を用いた芥川龍之介と太宰治の計量文体分析」
. . . . . . . . . . . . . . . . . 3
木山 直毅 
「日本語複合動詞「V直す」,「V返す」,「V戻す」の特徴: 語レベルの構文研究」
. . . . . . . . . . . . . . . . . . 15
三宅 真紀
「トークン・文字単位距離に基づく文書間の類似度計算法の考察」
. . . . . . . . . . . . . . . . . . 29
後藤 一章
「パラレルコーパスを用いた日英対訳コロケーション抽出の試み」
. . . . . . . . . . . . . . . . 37
岩根 久 
「脚韻判定法の評価?フランスのソネの押韻構成を用いて?」
. . . . . . . . . . . . . . . . 49


統計数理研究所言語系共同研究グループ合同発表会
「言語研究と統計2013」
http://language.sakura.ne.jp/s/stat.html#stat2013
●日時:2013年3月27日(水)〜28日(木)
●会場:統計数理研究所
●プログラム(当研究に関するもののみ)
3月27日 (水)
Session 2(司会:小山由紀江)
13:30--14:00 田畑智司
Too many suspects, too much burstiness: A meta-analysis of key-word-detection statistics for stylometry
(概要)
コーパスの語彙的特徴を特定するポピュラーな手順として,カイ2乗検定や対数尤度比検定に基づく特徴語 (key-words) 抽出の手法がよく用いられる。しかし, この手法は重大な問題点二つを孕んでいる。一つは Tabata (2012) で指摘したように,生起箇所・生起テクストに大きな偏り (burstiness) のある項目が往々にして key-words と見做されてしまうことである。もう一つはコーパスサイズが大きくなると帰無仮説が事実上無意味になり,ほとんどの語が擬陽性key-words になってしまうことである (Kilgariff, 2001, 2005; Lijffijt et al. (2012)。そこで,本研究では特徴語抽出法のメタ分析を行い,上記のような問題点に対処しつつ,作家の文体を物語る項目に絞り込むにはどのようなアプローチが効果的か検討する。

14:00--14:20 岩根久
フランス詩の脚韻
(概要)
16世紀の定型詩(例えばソネ)の脚韻形式調査のため、脚韻の自動ラベル付与についての技術の開発を行っているが、今回の発表では綴り字の音素コード化を用いた場合、どれくらいの効率化が図れるか、また付随する問題点について報告する。

14:20--14:40 小林雄一郎
芥川龍之介と太宰治の計量文体分析ー著者推定と経年変化
(概要)
本研究の目的は,芥川龍之介(1982〜1927年)と太宰治(1909〜1948年)のテクストにおける文体的差異を明らかにすることである。具体的には,教師あり学習と教師なし学習を用いて,両者のテクストを自動分類し,テクスト間の関係,変数間の関係,さらにはテクストと変数との関係を視覚化する。また,文体の経年変化についての言及する。

Session 3(司会:石川有香)
15:00--15:20 今尾康裕
英語学習者コーパスの語彙使用傾向を探る試み?コレスポンデンス分析を利用して?
(概要)
近年、ICNALE や NICE など、様々な学習者コーパスが作られて公開されている。本発表では、これらのコーパスを利用し、英語学習者の書き言葉コーパスにおける語彙使用の傾向を分析した結果を報告する。指標には、単語だけでなく単語連鎖(lexical bundles)なども使い、多変量解析、特にコレスポンデンス分析を利用して、様々なジャンルの英語コーパスと比較してどのような傾向を示すのかを分析する。

15:20--15:40 三宅真紀
トークン・文字単位距離に基づく文書間の類似度計算法の考察
(概要)
本研究は,近代ギリシャ語新約聖書校訂本の比較研究の一環として,文構造・使用語彙が類似している文書間の異同を適切に測るために適した類似度手法について検討する.
情報理論分野で提案された数種類の計算手法に対して,文字列の近さを測る単位に注目しながら,文字・トークン単位による類似度の違いについて考察する.

15:40--16:00 木山直毅
日本語複合動詞の構文的研究
(概要)
近年、認知言語学の中でも構文文法の枠組みにおける研究が非常に盛んになっている。本発表では、これまでは理論上は「構文」という扱いを受けていたが、実際には構文として研究があまりされて来なかった日本語の複合動詞を分析する。そこで、本発表では「V返す」「V直す」「V戻す」の3つを扱い、コロケーションやジャンルの観点から分析する。

16:00--16:20 後藤一章
日英コロケーションの対応性と非対応性
(概要)
日英パラレルコーパスから英日対訳コロケーションの自動抽出を行うと、正しく抽出されない項目が少なからず生じる。こうした不正解項目は、日本語と英語の表現方法の非対応性が影響していると考えられる。そこで本研究は、正しく抽出が行われない項目を精査し、その原因と対策について検討する。

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

1. 研究発表・講演会「計量的言語研究の諸相」
日時:2012年9月19日(水)
場所:北海道大学大学院メディア・コミュニケーション研究院
参加者数:約40名

2. 統計数理研究所共同利用研究連携研究班合同中間報告会
日時:2012年9月20日(木)
場所:北海道大学大学院メディア・コミュニケーション研究院
参加者数:約15名

統計数理研究所言語系共同研究グループ合同発表会
「言語研究と統計2013」
http://language.sakura.ne.jp/s/stat.html#stat2013
●日時:2013年3月27日(水)〜28日(木)
●会場:統計数理研究所
参加者数:約50名

 

研究参加者一覧

氏名

所属機関

今尾 康裕

大阪大学

岩根 久

大阪大学

木山 直毅

大阪大学

後藤 一章

摂南大学

小林 雄一郎

大阪大学

澁谷 竜昇

大阪大学

八野 幸子

大阪大学

前田 忠彦

統計数理研究所

三宅 真紀

大阪大学

森 真幸

大阪大学