平成282016)年度 一般研究2実施報告書

 

課題番号

28−共研−2042

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

6

研究課題名

テクストマイニングを応用したデジタルヒューマニティーズ研究

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科・言語文化専攻・言語情報科学講座

職  名

准教授

配分経費

研究費

40千円

旅 費

322千円

研究参加者数

18 人

 

 

研究目的と成果(経過)の概要

本共同研究は,言語工学,計量言語学・コーパス言語学,多変量解析,機械学習など関連諸分野の知見を有機的に統合したマイニング方法論を開発し,統計解析言語Rを高度に活用したデータマイニングによって人文学データに新たな光を当てる試みである。
 このプロジェクトは大きく分けて二つの層で構成される。一つは基盤となる電子化人文学資料の開発構築,もう一つは電子化人文学資料から抽出したデータの統計学的分析研究である。前者には英語,仏語,日本語,ロシア語,ギリシャ語の文学作品,聖書,歴史資料などのデジタル化など,研究基盤となる諸資料の電子化やマークアップ法,データ解析ツールの開発などの仕事が含まれる。一方,人文学データのマイニングの事例として,文書の著者推定,共著書の文体識別法の研究,文書の類型分析や,異本間の比較,歴史資料からの知識抽出などの研究が挙げられる。本研究では特に,対応分析,因子分析,判別分析などの伝統的な多変量解析手法に加えて,ランダムフォレストやサポートベクターマシン,ニューラルネットワーク,トピックモデルやヴェクタースペースモデルなどの機械学習に基づく分析手法を適用し,文書・文体の特徴抽出のための方法論を比較検討し,テクストマイニングや情報抽出などの応用事例を視野に入れた高精度の文書分類法や著者推定法・文体識別法を確立することを目指した。
 共同研究の実施にあたり,研究代表者,研究分担者が大阪大学に毎月集まり,月例の研究報告会を開催し,各々の担当課題の進捗状況を確認しあった。8月下旬には神戸大学にて,統計数理研究所・前田忠彦准教授が受け入れ教員を務める言語系共同利用研究班5グループ合同での中間報告会を実施した。
 研究代表者・田畑智司は,上半期には身体部位を表す語彙項目を説明変数として18世紀,19世紀の代表的英文学作品からなるコーパスの分析を行い,8月の報告会においてその成果を発表した。後期は,Latent Dirichlet allocationに基づくトピックモデリングを同じコーパスに適用する研究を進め,その成果を3月27, 28日に統計数理研究所で開催された「言語研究と統計2017」において発表した。トピックモデリングを応用したもう一つの研究は研究分担者・黒田絢香が行った。黒田はランダムフォレストとトピックモデリングを適用してSir Arthur Conan Doyleの歴史小説と探偵小説間の内在的な意味構造の相違を浮き彫りにした。これに関連するヴェクタースペースモデルに基づく研究を担当したのは土村成美で,土村はword2vecにより,Agatha Christie作品系統,人物描写の特徴づけを調査分析した。他方,研究分担者・岩根久はデータマイニングの方法論をフランス・ルネサンス期の詩の計量分析に応用する研究を担当した。三宅真紀は共観福音書の異本間の類似・相異を測定する様々な尺度の比較研究を行なった。他方,高橋新は英訳聖書の系統分析を担当した。今尾康裕は特に研究インフラの開発,高度化に注力し,本研究の基盤整備と拡張に大いに貢献した。具体的には,統計解析言語Rの機能を,初心者向けにも使いやすく工夫したグラフィカルユーザーインターフェースを備えた解析ツールスイートMacRを開発するとともに,コーパス分析ソフトウェアスイートのCasualConcに統計解析言語Rの機能を組み込んで拡張し,特徴語抽出や語彙項目によるテクストのプロファイリング,テクストデータの視覚化を行う機能を実装した。後藤一章は日英語対訳コーパスから重要度の高いコロケーションを自動抽出する方法の開発を行った。また,小林雄一郎(東洋大学助教)はテクスト比較のための統計手法論の比較検討というメタ分析の観点から当研究課題遂行のためのフィードバックを担当した。上阪彩香(同志社大学大学院)は近世日本文学作品の著者推定問題を中心に据えた研究を展開した。同じく日本文学では,藤原いずみが句読点前後の助詞の頻度分布に基づいた宮沢賢治の作品執筆年代の推定を試みた。以上のように本共同利用研究では,計量的テクスト分析をデジタルヒューマニティーズの核に位置付けるべく,英語,日本語,仏語,ギリシャ語,ヘブライ語と多言語にまたがる人文学データのマイニング方法論の精緻化に取り組んだ。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

統計数理研究所共同研究リポート386『テクストマイニングとデジタルヒューマニティーズ』

田畑 智司
「FLOBコーパスの意味構造:確率論的トピックモデルによる言語使用域の特徴付け」 (pp. 1--17)

木山 直毅
 「英語引用句構文における動詞の特徴」(pp. 19--30)

三宅 真紀
「異読距離から測る人工写本の系統樹推定?校合様式の違いによる推定結果の比較?」(pp. 31--44)

今尾 康裕
「依存文法解析に基づく共起語の抽出の可能性?Stanford CoreNLPを利用して?」(pp. 45--54)

黒田 絢香
「小説テクストの計量的分析:アーサー・コナン・ドイルの作品から」(pp. 55--70)

高橋 新
「英語翻訳聖書間の計量的スタイル分析手法の考察」(pp. 71--81)

浅野 元子
「医学論文考察部に学ぶ:論理展開の出現と特徴語についての検討」(pp. 83--105)

土村 成美
「Agatha Christie作品の計量文体分析」(pp. 107--119)

藤原 いずみ
「宮沢賢治の経年的な文体の変化:計量的な分析による観察」(pp. 121--129)


統計数理研究所言語系共同研究グループ合同発表会
言語研究と統計 2017
2017 年 3 月 27 日(月)~28 日(火)
統計数理研究所 セミナー室1(3階)

浅野 元子「医学論文考察部に学ぶ:論理展開の出現と特徴語についての検討」
国際英語の使用例とされる代表的な医学誌の研究論文での考察部における「主な結果とその意義について述べる」「研究のまとめ」などの論理展開の出現順序と特徴語を検討した。

木山 直毅「英語の引用句構文に見られる動詞の特徴」
英語において,直接話法には5パターンが存在する(i.e. SVQ, QSV, QVS, QSVQ, SVSQ)。このパターンには様々な要因が関わっていることが考えられるが,本発表では,その1つの要因として動詞の意味クラスが関わることを論じた。

土村 成美「Agatha Christie 作品の統計的文体分析」
Agatha Christie 作品の文体の特徴を,他ミステリー作家との比較を通して明らかにすることを試みた。

岩根 久「反ロンサールパンフレットの計量的特徴の再検討」
宗教戦争の勃発期に王権擁護・カトリック的立場で書かれたロンサールの論説 詩に対抗してプロテスタント詩人達が出版したパンフレット詩の計量的特色について 2016年夏の発表で触れたが,さらに充実した資料により再検討した。

上阪 彩香「アンサンブル学習モデルを用いた近世文学作品の著者に関する検討」
本研究では,井原西鶴と北条団水のテキストデータを用い,著者による判別を試みた。

三宅 真紀「人工写本 Parzival を利用した校合データ様式と異読距離の考察:新約聖書写本比較に向けて」
人工写本 Parzival を利用して,写本の読みの違いに基づいた異読距離行列による系統樹推定について報告した。

高橋 新「英語翻訳聖書間の計量的スタイル分析手法の考察?「ヨハネによる福音書」の分析を通して?」
Covington et al (2015)が「マルコによる福音書」の英語翻訳間の分析をする際に用いた計量的スタイル分析手法を援用し,「ヨハネによる福音書」の英語翻訳間分析を試みた。

藤原 いずみ「宮沢賢治の経年的な文体の変化---計量的な分析を用いて---」
宮沢賢治の経年的な文体の変化を計量的な分析を用いて捉え,執筆時期が不明確な作品について推測が可能か試みた。

黒田 絢香「小説テクストの計量的分析---アーサー・コナン・ドイルの作品から」
計量的な分析手法を用いて,アーサー・コナン・ドイルの作品をジャンルごとに比較することを試みた。

小林 雄一郎「多変量データの可視化手法の比較」
多変量データの可視化手法のうち,対応分析,階層型クラスター分析,ヒートマップ分析を取り上げ,各々の手法の長所と短所を検討し,よりよいと思われる方法を紹介した。

今尾 康裕「構文解析を利用した英語コロケーション分析の可能性」
これまでのコロケーション研究で行われてきた,ある語の前後一定の範囲に現れる語を共起語として統計処理を利用した分析と,構文解析を利用した文法的に関係のある語のコロケーションの分析を比較検討した。

田畑 智司「The Semantic Universe of Classic Fiction」
英国小説の文体を史的・通時的視点から記述分析するために編纂した参照コーパス ORCHIDS (Osaka Reference Corpus for HIstorical/ Diachronic Stylistics)を構成するテクストに,確率論的トピック推定モデルを適用することにより,classic fiction の'semantic universe' を視覚化した。LLRやカイ二乗検定,U検定など,典型的な key-word detection の手法とこのモデルの違いは,生起が infrequent な項目,つまり,それ単体では統計解析しづらい語彙項目であっても,任意の数のトピックに集約して扱うことができること,そして,トピック間の関係や,トピックと個々のテクストとの関係を視覚的に把握することを助けてくれる点にあることを論じた。

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。


 

研究参加者一覧

氏名

所属機関

浅野 元子

大阪大学

今尾 康裕

大阪大学

岩根 久

大阪大学

上阪 彩香

同志社大学大学院

木山 直毅

大阪大学

黒田 絢香

大阪大学

後藤 一章

摂南大学

小林 雄一郎

東洋大学

杉山 真央

大阪大学

高橋 新

大阪大学

土村 成美

大阪大学

八野 幸子

大阪大学大学院

藤原 いずみ

大阪大学

Hodoscek Bor

大阪大学

前田 忠彦

統計数理研究所

南澤 佑樹

大阪大学

三宅 真紀

大阪大学