平成30(2018)年度 一般研究2実施報告書
課題番号 |
30−共研−2052 |
分野分類 |
統計数理研究所内分野分類 |
e |
||||||
主要研究分野分類 |
6 |
|||||||||
研究課題名 |
機械学習型テクストマイニング方法論の比較研究:トピックモデリングとワードエンベディング |
|||||||||
フリガナ 代表者氏名 |
タバタ トモジ 田畑 智司 |
ローマ字 |
Tabata Tomoji |
|||||||
所属機関 |
大阪大学 |
|||||||||
所属部局 |
大学院言語文化研究科・言語文化専攻・言語情報科学講座 |
|||||||||
職 名 |
准教授 |
|||||||||
配分経費 |
研究費 |
40千円 |
旅 費 |
423千円 |
研究参加者数 |
17 人 |
研究目的と成果(経過)の概要 |
平成31年度の研究計画では,研究基盤確立のために,まずコーパスの質的精緻化を追求した。これまでの研究で編纂したコーパスのデザインに修正を施し,各サブコーパスのバランスを重視した構成に改訂した。各テクストはマークアップ言語XMLを用い,TEI P5に準拠するマークアップ(構造標識化)を施した。一方,言語的アノテーションについては,British National Corpusで採用されているCLAWS C5タグ セットのパラミターファイルを用いて,テクストの全単語にTreeTaggerで品詞標識を付与した。このように,コーパス文体論研究に特化したコーパスに対し,抽出トピック数,iteration回数,hyperparameter最適化条件,テクスト分割サイズなどの設定条件を様々に変化させたトピックモデリング実験を繰り返し行うことにより,最適な解析条件を求めた。今年度は特に身体部位表現がどのようなトピックを構成しているか,またそのようなトピックの経年変化の相を視覚化するための分析に重点を置いて研究を進めた。この研究と並行して,ワードエンベディング法による近傍語群の推定実験を実施した。コーパス全体ならびに各サブコーパスご とのモデル構築を行い,ディケンズサブコーパスを特徴付ける近傍語群推定を行った。得られた成果の一部は,3月に統計数理研究所で開催された「言語研究と統計2019」で発表した。トピックモデリングとワードエンベディングによるコーパス分析の知見と情報を関連分野の研究者と交換できたことは今年度の共同利用研究の大きな収穫であった。 |
当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等) |
統計数理研究所共同研究リポート424『実践計量文体学II 語彙,意味,文体へのアプローチ』(2019年3月)掲載論文 |
研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。 |
2018年度統計数理研究所言語系共同研究グループ合同中間報告会 |
研究参加者一覧 |
|
氏名 |
所属機関 |
浅野 元子 |
大阪大学 |
今尾 康裕 |
大阪大学 |
岩根 久 |
大阪大学 |
上阪 彩香 |
大阪大学 |
岡部 未希 |
大阪大学 |
黒田 絢香 |
大阪大学 |
後藤 一章 |
摂南大学 |
杉山 真央 |
大阪大学 |
高橋 新 |
大阪大学 |
土村 成美 |
大阪大学 |
八野 幸子 |
帝塚山学院大学 |
福本 広光 |
大阪大学 |
Hodoscek Bor |
大阪大学 |
前田 忠彦 |
統計数理研究所 |
南澤 佑樹 |
大阪大学 |
三宅 真紀 |
大阪大学 |