平成292017)年度 一般研究2実施報告書

 

課題番号

29−共研−2047

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

6

研究課題名

統計的テクストマイニング方法論の比較研究:トピックモデルとベクタースペースモデル

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科・言語文化専攻・言語情報科学講座

職  名

准教授

配分経費

研究費

40千円

旅 費

368千円

研究参加者数

14 人

 

 

研究目的と成果(経過)の概要

本共同利用研究において,研究代表者ならびに分担者は,機械学習による語彙分布モデルを基にしたテクストマイニング方法論の精緻化,精密化に取り組んだ。これまでのデジタルヒューマニティーズ研究においては,階層クラスター分析,主成分分析や対応分析等の伝統的多変量解析に基づいた,テクストやコーパスの分類,類型化の方法論が追求され,安定度の高い分類を行うための変数選択の方法が開発されて一定の成果を蓄積してきた。他方,近年,ビッグデータの分析などで注目を集めている機械学習の分析モデルは,テクストデータに潜在する語彙の分布パターンや言語項目間,テクスト間の潜在的な関係性をネットワーク図にして可視化することに秀でている。そこで,本共同利用研究では,分類・類型化の手法だけでは捉えることが困難な,言語事実や文化表象をネットワークモデルによって,データ項目間の複雑な関係性の視覚化を行い,デジタルヒューマニティーズ研究に新地平をもたらすことを目指した。具体的には,Latent Dirichlet Allocation (Blei et al. 2003)によるトピックモデルとWord2vecとして実装されているベクタースペースモデル(Milolov et al. 2013)を様々なタイプのテクストデータに適用することにより,これら二つのアプローチの特徴と問題点を比較検討し,従来のコーパス研究では忌避される傾向にあった「意味」の問題をデジタルテクスト分析の射程に統合するための基礎研究を深めた。
 このプロジェクトは大きく分けて二つの層で構成されている。一つは基盤となる電子化人文学資料の開発構築,もう一つは電子化人文学資料から抽出したデータの統計学的分析研究である。前者には英語,仏語,(古典|現代)日本語,ロシア語,ギリシャ語の文学作品,聖書,歴史資料などのデジタル化など,研究基盤となる諸資料の電子化やマークアップ法,データ解析ツールの開発などの仕事が含まれる。一方,人文学データのマイニングの事例として,文学作品間の影響関係,文書の特徴づけや,聖書の異本間の比較,歴史資料からの知識抽出や,政治的談話の批判的分析などの研究が挙げられる。本研究では特に,トピックモデリング,ベクタースペースモデルを適用して文書・文体の特徴抽出やデータ間の関係性を視覚化する方法論を比較検討し,次世代デジタルヒューマニティーズの応用事例を視野に入れた高精度のテクスト分析法の確立に努めた。
 研究成果報告の場として,統計数理研究所共同利用研究を実施している言語系研究班5グループ合同の研究報告会,合同セミナーをそれぞれ9月と3月に行った。夏の中間報告会は平成29年9月4日--5日に大阪大学にて開催し,春の最終報告会は,平成30年3月28日--29日に統計数理研究所において「言語研究と統計2018」として開催した。研究報告会の詳細については以下の欄に記述する。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

統計数理研究所共同研究リポート 405
『実践計量文体学:ジャンル,トピック,キーワード』(2018年3月)

南澤 佑樹
「FEAR のメタファー・メトニミー コロケーションの観点から」(pp. 1--13)

浅野 元子
 「英語医学論文考察部における日本人著者と中国人著者の言語使用の特徴」(pp. 15--34)

三宅 真紀
「語彙多様性指標からみる新約聖書ギリシャ語校訂本の分類?決定木モデルによる文学類型および著者の判別を中心として?」 (pp. 35--54)

Mao Sugiyama
How did the Russian Press Report Russia's First President?
Comparing the Key Words between Yeltsin's addresses and the Press (pp. 55--74)

Tomoji Tabata
Mapping Dickens's Style in the Network of Words, Topics, and Texts (pp. 75--84)

後藤 一章
 「統語解析に基づく NS と NNS における名詞の統語機能の比較」(pp. 85--96)

高橋 新
 「英語翻訳聖書間における計量的スタイル分析の考察?『マルコによる福音書』及び『ヨハネによる福音書』?」(pp. 97--113)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

夏季中間報告会
2017年9月4--5日開催(大阪大学)参加者30名
発表者・発表題目
   浅野 元子 「国際英文医学誌における日本人著者と中国人著者による言語使用の特徴」
高橋  新 「英語翻訳聖書間の計量的スタイル分析の考察?マルコ及びヨハネによる両福音書の分析を通して?」
田畑 智司 A stochastic analysis of topic distribution across text sets
黒田 絢香 「文学作品分析におけるトピックモデルの応用」
土村 成美 「トピックモデルを用いたAgatha Christie作品の予備的分析」
八野 幸子 「Multi-word expressionsの教育応用」

研究成果報告会
2018年3月29--30日「言語研究と統計2018」(於 統計数理研究所)として開催 参加者約70名
発表者・発表題目
浅野 元子 「英語医学論文考察部における日本人著者と中国人著者の言語使用の特徴」
杉山 真央 「エリツィン大統領の年次教書と『独立新聞』の報道記事」
土村 成美 「イギリスにおけるミステリー黄金時代の女性作家作品の比較分析--Christie, SayersとAllingham--」
南澤 佑樹 「恐怖のメタファー・メトニミー」
上阪 彩香 「『万の文反古』 における版下の系列と文章の特徴」
ホドシチェク ボル 「青空文庫とDBpediaを合わせた近現代小説コーパスの書誌情報別分類実験: 計量文献学におけるJulia言語の可能性」
後藤 一章 「統語解析に基づくNSとNNSにおける名詞使用の差異」
三宅 真紀 「語彙多様性指標からみる新約聖書ギリシャ語校訂本の分類」
高橋  新 「英語翻訳聖書間の計量的スタイル及び語彙分析結果の考察?マルコ及びヨハネによる両福音書の分析を通して?」
黒田 絢香 「トピックモデルによる特徴語抽出の試み:アーサー・コナン・ドイルの作品から」
今尾 康裕 「日本の英語学習者によるエッセイでの文レベルの接続表現を探る?日本語エッセイ・英語母語話者によるエッセイと比較して?」
田畑 智司 Dickens in Vector Space

 

研究参加者一覧

氏名

所属機関

浅野 元子

大阪大学

今尾 康裕

大阪大学

岩根 久

大阪大学

上阪 彩香

同志社大学大学院

黒田 絢香

大阪大学

後藤 一章

摂南大学

杉山 真央

大阪大学

土村 成美

大阪大学

八野 幸子

帝塚山学院大学

Hodoscek Bor

大阪大学

前田 忠彦

統計数理研究所

南澤 佑樹

大阪大学

三宅 真紀

大阪大学