平成302018)年度 一般研究2実施報告書

 

課題番号

30−共研−2052

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

6

研究課題名

機械学習型テクストマイニング方法論の比較研究:トピックモデリングとワードエンベディング

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科・言語文化専攻・言語情報科学講座

職  名

准教授

配分経費

研究費

40千円

旅 費

423千円

研究参加者数

17 人

 

 

研究目的と成果(経過)の概要

平成31年度の研究計画では,研究基盤確立のために,まずコーパスの質的精緻化を追求した。これまでの研究で編纂したコーパスのデザインに修正を施し,各サブコーパスのバランスを重視した構成に改訂した。各テクストはマークアップ言語XMLを用い,TEI P5に準拠するマークアップ(構造標識化)を施した。一方,言語的アノテーションについては,British National Corpusで採用されているCLAWS C5タグ セットのパラミターファイルを用いて,テクストの全単語にTreeTaggerで品詞標識を付与した。このように,コーパス文体論研究に特化したコーパスに対し,抽出トピック数,iteration回数,hyperparameter最適化条件,テクスト分割サイズなどの設定条件を様々に変化させたトピックモデリング実験を繰り返し行うことにより,最適な解析条件を求めた。今年度は特に身体部位表現がどのようなトピックを構成しているか,またそのようなトピックの経年変化の相を視覚化するための分析に重点を置いて研究を進めた。この研究と並行して,ワードエンベディング法による近傍語群の推定実験を実施した。コーパス全体ならびに各サブコーパスご とのモデル構築を行い,ディケンズサブコーパスを特徴付ける近傍語群推定を行った。得られた成果の一部は,3月に統計数理研究所で開催された「言語研究と統計2019」で発表した。トピックモデリングとワードエンベディングによるコーパス分析の知見と情報を関連分野の研究者と交換できたことは今年度の共同利用研究の大きな収穫であった。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

統計数理研究所共同研究リポート424『実践計量文体学II 語彙,意味,文体へのアプローチ』(2019年3月)掲載論文
1. 南澤 佑樹
「名詞emotionのコロケーション概念メタファー理論の観点から」pp. 1--10
2. 浅野 元子
「日本人著者による英語医学論文のムーブの検討:Nwoguによる1997年の研究を踏まえて」pp. 11--35
3. 上阪 彩香
「西鶴浮世草子の文章の特徴と出版時期」pp. 37--48
4. 高橋 新
「英語翻訳聖書間における計量的スタイル分析の考察?『マルコによる福音書』及び『ヨハネによる福音書』?」pp. 49--64
5. 黒田 絢香
「機械学習アプローチによる推理小説分析 トピックモデルとキーワード」 pp. 65--74


「言語研究と統計2019」(セミナーシリーズ Vol.14)
統計数理研究所言語系共同研究グループ合同発表会 言語研究と統計2019
●日時:2019年3月20日〜21日
●会場:統計数理研究所(東京都立川市緑町 10-3)
●発表一覧
浅野元子 大阪大学大学院生「日本人著者による英語医学論文のムーブの検討?Nwoguの研究を踏まえて」
今尾康裕 大阪大学「アプリケーション関連」
上阪彩香 大阪大学「西鶴浮世草子の文章の特徴と出版時期」
岡部未希 大阪大学大学院生「Thou & You in Emily Dickinson Poems: Focusing on interjections」
黒田絢香 大阪大学大学院生「トピックモデルによる特徴語抽出の試み」
後藤一章 摂南大学「テキストジャンルにおける名詞用法の差異」
高橋 新 大阪大学「英語翻訳聖書間の計量的スタイル及び語彙選択の分析 ? マルコ及びヨハネによる両福音書17翻訳の分析 ?」
田畑 智司 大阪大学「Word Vectors and Semantic Style in Classic Fiction」
土村成美 大阪大学大学院生「Agatha Christie作品の分析」
八野 幸子 帝塚山学院大学「教科横断的視点を取り入れた英語教育のための語彙研究」
福本 広光 大阪大学大学院生「アメリカ英語における分離不定詞の通時的使用実態の研究」
南澤佑樹 大阪大学非常勤「名詞 emotion のコロケーション:概念メタファー理論の観点から」
三宅真紀 大阪大学「シナイ写本の写字識別の試み: 大文字エプシロンおよびニューの字体に注目して」
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=2ahUKEwiJotjwroHjAhVKPnAKHc0tB_QQFjAAegQIARAB&url=http%3A%2F%2Flanguage.sakura.ne.jp%2Fs%2Flangstat.html&usg=AOvVaw2DDqcVUOKfFOjTMhcdeGuQ

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

2018年度統計数理研究所言語系共同研究グループ合同中間報告会
日時:2018年9月1日〜2日
会場:神戸大学百年記念館
参加者数:32名


統計数理研究所言語系共同研究グループ合同セミナー「言語研究と統計2019」(セミナーシリーズ Vol.14)
日時:2019年3月20日〜21日
会場:統計数理研究所(東京都立川市緑町 10-3)
参加者数:約100名

 

研究参加者一覧

氏名

所属機関

浅野 元子

大阪大学

今尾 康裕

大阪大学

岩根 久

大阪大学

上阪 彩香

大阪大学

岡部 未希

大阪大学

黒田 絢香

大阪大学

後藤 一章

摂南大学

杉山 真央

大阪大学

高橋 新

大阪大学

土村 成美

大阪大学

八野 幸子

帝塚山学院大学

福本 広光

大阪大学

Hodoscek Bor

大阪大学

前田 忠彦

統計数理研究所

南澤 佑樹

大阪大学

三宅 真紀

大阪大学