平成272015)年度 一般研究2実施報告書

 

課題番号

27−共研−2054

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

6

研究課題名

統計解析言語Rによる人文学データのマイニング方法論研究

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科・言語文化専攻・言語情報科学講座

職  名

准教授

配分経費

研究費

40千円

旅 費

283千円

研究参加者数

14 人

 

 

研究目的と成果(経過)の概要

本共同利用研究は,自然言語処理,計量言語学・コーパス言語学,多変量解析,機械学習など関連諸分野の知見を有機的に統合したマイニング方法論を開発し,統計解析言語Rを高度に活用したデータマイニングによって人文学データに新たな光を当てる試みである。本研究の目的を達成するために,二つの層からなる研究計画を実行した。一方は,研究基盤となる電子化人文学資料の開発構築,もう一方は電子化人文学資料から抽出したデータの統計学的分析研究である。前者の事例として,英語,仏語,日本語,ロシア語,ギリシャ語の文学作品,聖書,歴史資料などを効率的に処理するためのマークアップ,アノテーションについての研究を実施した。他方,人文学データのマイニングの事例として次のような個別研究を行った:1) 文書の著者推定,共著書の文体識別法の研究,2) 文書の類型分析や,異本間の比較,3) 歴史資料からの知識抽出,4) 2言語対応言語資料からの日英対訳コロケーションの抽出,5) ロシア大統領の年次教書演説の通時的分析,6) 日米医学論文コーパスの言語分析。本研究では,自然言語処理を応用した人文学資料のテクスト処理モジュールと,資料から抽出した数データの統計解析を行うモジュールを有機的に組み合わせたRスクリプトを開発し,高精度のテクスト分類法や著者推定法・文体識別法の精緻化を行うとともに,専門分野細目に特化した特徴表現を抽出する手法の詳細な検討を行った。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1. 言語研究と統計ウェブサイト
http://language.sakura.ne.jp/s/langstat.html

2. 統計数理研究所共同研究リポート364『テクストマイニングとテクスト分析』(2016年3月)
目 次
田畑 智司 「はじめに」
・・・・・・・・・・・・・ 1
田畑 智司 「修辞的特徴のマイニング:
Dickensと18--19世紀英国小説の文体」
・・・・・・・・・・・・・ 3
杉山 真央 「ロシア大統領の年次教書:
エリツィン大統領からプーチン大統領まで」
・・・・・・・・・・・・・ 37
浅野 元子 「医学論文における専門英語分析のための予備的検討」
・・・・・・・・・・・・・ 47

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

第1回 2015年5月8日開催(大阪大学)「2015年度の共同研究計画についての打合せ」参加者15名

第2回 2015年6月12日開催(大阪大学)参加者15名
 発表者・発表題目
八野 幸子 「コーパスを用いた英語理学療法論文の特徴的Multi-Word Expressionの分析」
ホドシチェク ボル「日本語通時コーパスのファセット検索システム開発」

第3回 2015年7月10日開催(大阪大学)参加者15名
 発表者・発表題目
杉山 真央 "Comparing the Addresses of Russian Presidents in Inaugural Ceremonies: A Text-mining Approach"
木山 直毅 "A Cognitive Approach to Degree Expressions: Frame, Constructions, and Composi-tionality"

第4回 2015年9月18日開催(大阪大学)参加者15名
 発表者・発表題目
今尾 康裕 「CasualConc 2.0 の新機能」

第5回 2015年9月27--8日開催(統計数理研究所共同利用研究班との合同中間報告会として開催 大阪大学大学院言語文化研究科A棟2階大会議室)参加者30名
 発表者
   後藤 一章 「Tatoeba コーパスを用いたマルチリンガルコロケーションリスト構築の試み」
   田畑 智司 「機能カテゴリーに基づく計量文体研究」
上阪 彩香 「数量分析による西鶴作品の文章のジャンルの検討」
杉山 真央 「ロシア大統領就任式演説とメディア報道?演説内容と伝達内容の差異?」
   八野 幸子 「Random Forestsと文書頻度の関係の調査?英語理学療法論文からの特徴語抽出の場合?」

第6回 2015年10月23日開催(大阪大学)参加者15名
田畑 智司 "Rolling stylometry and the stylistics of collaborations"

第7回 2015年11月13日開催(大阪大学)参加者15名
 発表者・発表題目
   木山 直毅 「名詞が叙述へと強制されるとき:認知言語学認知言語学した考察」

第8回 2015年12月11日開催(大阪大学)参加者15名
 発表者・発表題目
   杉山 真央 "Diachronic changes of the Russian Presidential Addresses to the Federal Assembly: Comparing a perspective of archetype key words"
南澤 佑樹 「コロケーションから見る怒りの感情概念?anger & rageのメタファー?」

第9回 2016年1月22日開催(大阪大学)参加者15名
 発表者・発表題目
三宅 真紀 「編集距離からみる新約聖書正文批判研究」


第10回 2016年2月12日開催(大阪大学)参加者15名
 発表者・発表題目
高橋  新 "Stylometric Analyses of the Gospel of John in Various English Translations"
杉山 真央 「ロシア大統領の年次教書 ? エリツィン大統領からプーチン大統領まで ?」

第11回 2016年3月9日開催(大阪大学)参加者15名
 発表者・発表題目
岩根  久 「ロンサールの論説詩とプロテスタント詩人達の論説詩?特徴に相違があるか?」

第12回 2016年3月15--16日「言語研究と統計2016」(統計数理研究所)として開催
 発表者・発表題目参加者約50名
岩根  久 「論説詩合戦におけるロンサールとプロテスタント詩人?計量的特色から何が見えるか?」
後藤 一章 「Tatoeba を利用したトライリンガル対訳コロケーション抽出の試み」
田畑 智司 "Experimental Stylometry: a meta-analysis to evaluate 'Rolling SVM'"
三宅 真紀 「編集距離による新約聖書正文批判研究の試み」
ホドシチェク ボル "Creation of topically similar document sets for the investigation of linguistic features underpinning register variation in contemporary Japanese"
浅野 元子 「医学論文における専門英語分析のための予備的検討」
   上阪 彩香 「計量文献学の手法を用いた西鶴遺稿集の検討」
杉山 真央 「ロシア大統領の年次教書ーエリツィン大統領からプーチン大統領までー」
八野 幸子 「インフォーマント調査結果に協力者の背景情報が影響する要因についての分析の試み?英語理学療法論文頻出Multi-Word Expression Listに関する調査の場合?」
南澤 佑樹 「コロケーションから見る怒りのメタファー」

 

研究参加者一覧

氏名

所属機関

浅野 元子

大阪大学

今尾 康裕

大阪大学

岩根 久

大阪大学

上阪 彩香

同志社大学大学院

木山 直毅

大阪大学

後藤 一章

摂南大学

小林 雄一郎

立命館大学

杉山 真央

大阪大学

八野 幸子

大阪大学大学院

Hodoscek Bor

大阪大学

前田 忠彦

統計数理研究所

南澤 佑樹

大阪大学

三宅 真紀

大阪大学