平成29(2017)年度 一般研究2実施報告書
課題番号 |
29−共研−2047 |
分野分類 |
統計数理研究所内分野分類 |
e |
||||||
主要研究分野分類 |
6 |
|||||||||
研究課題名 |
統計的テクストマイニング方法論の比較研究:トピックモデルとベクタースペースモデル |
|||||||||
フリガナ 代表者氏名 |
タバタ トモジ 田畑 智司 |
ローマ字 |
Tabata Tomoji |
|||||||
所属機関 |
大阪大学 |
|||||||||
所属部局 |
大学院言語文化研究科・言語文化専攻・言語情報科学講座 |
|||||||||
職 名 |
准教授 |
|||||||||
配分経費 |
研究費 |
40千円 |
旅 費 |
368千円 |
研究参加者数 |
14 人 |
研究目的と成果(経過)の概要 |
本共同利用研究において,研究代表者ならびに分担者は,機械学習による語彙分布モデルを基にしたテクストマイニング方法論の精緻化,精密化に取り組んだ。これまでのデジタルヒューマニティーズ研究においては,階層クラスター分析,主成分分析や対応分析等の伝統的多変量解析に基づいた,テクストやコーパスの分類,類型化の方法論が追求され,安定度の高い分類を行うための変数選択の方法が開発されて一定の成果を蓄積してきた。他方,近年,ビッグデータの分析などで注目を集めている機械学習の分析モデルは,テクストデータに潜在する語彙の分布パターンや言語項目間,テクスト間の潜在的な関係性をネットワーク図にして可視化することに秀でている。そこで,本共同利用研究では,分類・類型化の手法だけでは捉えることが困難な,言語事実や文化表象をネットワークモデルによって,データ項目間の複雑な関係性の視覚化を行い,デジタルヒューマニティーズ研究に新地平をもたらすことを目指した。具体的には,Latent Dirichlet Allocation (Blei et al. 2003)によるトピックモデルとWord2vecとして実装されているベクタースペースモデル(Milolov et al. 2013)を様々なタイプのテクストデータに適用することにより,これら二つのアプローチの特徴と問題点を比較検討し,従来のコーパス研究では忌避される傾向にあった「意味」の問題をデジタルテクスト分析の射程に統合するための基礎研究を深めた。 |
当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等) |
統計数理研究所共同研究リポート 405 |
研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。 |
夏季中間報告会 |
研究参加者一覧 |
|
氏名 |
所属機関 |
浅野 元子 |
大阪大学 |
今尾 康裕 |
大阪大学 |
岩根 久 |
大阪大学 |
上阪 彩香 |
同志社大学大学院 |
黒田 絢香 |
大阪大学 |
後藤 一章 |
摂南大学 |
杉山 真央 |
大阪大学 |
土村 成美 |
大阪大学 |
八野 幸子 |
帝塚山学院大学 |
Hodoscek Bor |
大阪大学 |
前田 忠彦 |
統計数理研究所 |
南澤 佑樹 |
大阪大学 |
三宅 真紀 |
大阪大学 |