様式Ｃ－２－２

平成29（2017）年度　一般研究２実施報告書

課題番号	29－共研－2047		分野分類			統計数理研究所内分野分類			e
						主要研究分野分類			6
研究課題名	統計的テクストマイニング方法論の比較研究：トピックモデルとベクタースペースモデル
フリガナ代表者氏名	タバタトモジ田畑智司				ローマ字		Tabata Tomoji
所属機関	大阪大学
所属部局	大学院言語文化研究科・言語文化専攻・言語情報科学講座
職　　名	准教授
配分経費	研究費	40千円		旅　費		368千円		研究参加者数		14　人

研究目的と成果（経過）の概要

本共同利用研究において，研究代表者ならびに分担者は，機械学習による語彙分布モデルを基にしたテクストマイニング方法論の精緻化，精密化に取り組んだ。これまでのデジタルヒューマニティーズ研究においては，階層クラスター分析，主成分分析や対応分析等の伝統的多変量解析に基づいた，テクストやコーパスの分類，類型化の方法論が追求され，安定度の高い分類を行うための変数選択の方法が開発されて一定の成果を蓄積してきた。他方，近年，ビッグデータの分析などで注目を集めている機械学習の分析モデルは，テクストデータに潜在する語彙の分布パターンや言語項目間，テクスト間の潜在的な関係性をネットワーク図にして可視化することに秀でている。そこで，本共同利用研究では，分類・類型化の手法だけでは捉えることが困難な，言語事実や文化表象をネットワークモデルによって，データ項目間の複雑な関係性の視覚化を行い，デジタルヒューマニティーズ研究に新地平をもたらすことを目指した。具体的には，Latent Dirichlet Allocation (Blei et al. 2003)によるトピックモデルとWord2vecとして実装されているベクタースペースモデル(Milolov et al. 2013)を様々なタイプのテクストデータに適用することにより，これら二つのアプローチの特徴と問題点を比較検討し，従来のコーパス研究では忌避される傾向にあった「意味」の問題をデジタルテクスト分析の射程に統合するための基礎研究を深めた。
　このプロジェクトは大きく分けて二つの層で構成されている。一つは基盤となる電子化人文学資料の開発構築，もう一つは電子化人文学資料から抽出したデータの統計学的分析研究である。前者には英語，仏語，（古典｜現代）日本語，ロシア語，ギリシャ語の文学作品，聖書，歴史資料などのデジタル化など，研究基盤となる諸資料の電子化やマークアップ法，データ解析ツールの開発などの仕事が含まれる。一方，人文学データのマイニングの事例として，文学作品間の影響関係，文書の特徴づけや，聖書の異本間の比較，歴史資料からの知識抽出や，政治的談話の批判的分析などの研究が挙げられる。本研究では特に，トピックモデリング，ベクタースペースモデルを適用して文書・文体の特徴抽出やデータ間の関係性を視覚化する方法論を比較検討し，次世代デジタルヒューマニティーズの応用事例を視野に入れた高精度のテクスト分析法の確立に努めた。
　研究成果報告の場として，統計数理研究所共同利用研究を実施している言語系研究班5グループ合同の研究報告会，合同セミナーをそれぞれ9月と3月に行った。夏の中間報告会は平成29年9月4日--5日に大阪大学にて開催し，春の最終報告会は，平成30年3月28日--29日に統計数理研究所において「言語研究と統計2018」として開催した。研究報告会の詳細については以下の欄に記述する。

当該研究に関する情報源（論文発表、学会発表、プレプリント、ホームページ等）

統計数理研究所共同研究リポート 405
『実践計量文体学：ジャンル，トピック，キーワード』(2018年3月)

南澤　佑樹
「FEAR のメタファー・メトニミー　コロケーションの観点から」(pp. 1--13)

浅野元子
　「英語医学論文考察部における日本人著者と中国人著者の言語使用の特徴」(pp. 15--34)

三宅　真紀
「語彙多様性指標からみる新約聖書ギリシャ語校訂本の分類?決定木モデルによる文学類型および著者の判別を中心として?」 (pp. 35--54)

Mao Sugiyama
How did the Russian Press Report Russia's First President?
Comparing the Key Words between Yeltsin's addresses and the Press (pp. 55--74)

Tomoji Tabata
Mapping Dickens's Style in the Network of Words, Topics, and Texts (pp. 75--84)

後藤一章
　「統語解析に基づく NS と NNS における名詞の統語機能の比較」(pp. 85--96)

高橋　新
　「英語翻訳聖書間における計量的スタイル分析の考察?『マルコによる福音書』及び『ヨハネによる福音書』?」(pp. 97--113)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

夏季中間報告会
2017年9月4--5日開催（大阪大学）参加者30名
発表者・発表題目
　　浅野元子「国際英文医学誌における日本人著者と中国人著者による言語使用の特徴」
高橋　新「英語翻訳聖書間の計量的スタイル分析の考察?マルコ及びヨハネによる両福音書の分析を通して?」
田畑智司　A stochastic analysis of topic distribution across text sets
黒田絢香「文学作品分析におけるトピックモデルの応用」
土村成美「トピックモデルを用いたAgatha Christie作品の予備的分析」
八野幸子「Multi-word expressionsの教育応用」

研究成果報告会
2018年3月29--30日「言語研究と統計2018」（於統計数理研究所）として開催　参加者約70名
発表者・発表題目
浅野元子「英語医学論文考察部における日本人著者と中国人著者の言語使用の特徴」
杉山真央「エリツィン大統領の年次教書と『独立新聞』の報道記事」
土村成美「イギリスにおけるミステリー黄金時代の女性作家作品の比較分析--Christie, SayersとAllingham--」
南澤佑樹「恐怖のメタファー・メトニミー」
上阪彩香「『万の文反古』における版下の系列と文章の特徴」
ホドシチェクボル「青空文庫とDBpediaを合わせた近現代小説コーパスの書誌情報別分類実験: 計量文献学におけるJulia言語の可能性」
後藤一章「統語解析に基づくNSとNNSにおける名詞使用の差異」
三宅真紀「語彙多様性指標からみる新約聖書ギリシャ語校訂本の分類」
高橋　新「英語翻訳聖書間の計量的スタイル及び語彙分析結果の考察?マルコ及びヨハネによる両福音書の分析を通して?」
黒田絢香「トピックモデルによる特徴語抽出の試み：アーサー・コナン・ドイルの作品から」
今尾康裕「日本の英語学習者によるエッセイでの文レベルの接続表現を探る?日本語エッセイ・英語母語話者によるエッセイと比較して?」
田畑智司 Dickens in Vector Space

研究参加者一覧
氏名	所属機関
浅野元子	大阪大学
今尾康裕	大阪大学
岩根久	大阪大学
上阪彩香	同志社大学大学院
黒田絢香	大阪大学
後藤一章	摂南大学
杉山真央	大阪大学
土村成美	大阪大学
八野幸子	帝塚山学院大学
Hodoscek Bor	大阪大学
前田忠彦	統計数理研究所
南澤佑樹	大阪大学
三宅真紀	大阪大学