平成27(2015)年度 一般研究2実施報告書
| 課題番号 | 27−共研−2054 | 分野分類 | 統計数理研究所内分野分類 | e | ||||||
| 主要研究分野分類 | 6 | |||||||||
| 研究課題名 | 統計解析言語Rによる人文学データのマイニング方法論研究 | |||||||||
| フリガナ 代表者氏名 | タバタ トモジ 田畑 智司 | ローマ字 | Tabata Tomoji | |||||||
| 所属機関 | 大阪大学 | |||||||||
| 所属部局 | 大学院言語文化研究科・言語文化専攻・言語情報科学講座 | |||||||||
| 職 名 | 准教授 | |||||||||
| 配分経費 | 研究費 | 40千円 | 旅 費 | 283千円 | 研究参加者数 | 14 人 | ||||
| 研究目的と成果(経過)の概要 | 
| 本共同利用研究は,自然言語処理,計量言語学・コーパス言語学,多変量解析,機械学習など関連諸分野の知見を有機的に統合したマイニング方法論を開発し,統計解析言語Rを高度に活用したデータマイニングによって人文学データに新たな光を当てる試みである。本研究の目的を達成するために,二つの層からなる研究計画を実行した。一方は,研究基盤となる電子化人文学資料の開発構築,もう一方は電子化人文学資料から抽出したデータの統計学的分析研究である。前者の事例として,英語,仏語,日本語,ロシア語,ギリシャ語の文学作品,聖書,歴史資料などを効率的に処理するためのマークアップ,アノテーションについての研究を実施した。他方,人文学データのマイニングの事例として次のような個別研究を行った:1) 文書の著者推定,共著書の文体識別法の研究,2) 文書の類型分析や,異本間の比較,3) 歴史資料からの知識抽出,4) 2言語対応言語資料からの日英対訳コロケーションの抽出,5) ロシア大統領の年次教書演説の通時的分析,6) 日米医学論文コーパスの言語分析。本研究では,自然言語処理を応用した人文学資料のテクスト処理モジュールと,資料から抽出した数データの統計解析を行うモジュールを有機的に組み合わせたRスクリプトを開発し,高精度のテクスト分類法や著者推定法・文体識別法の精緻化を行うとともに,専門分野細目に特化した特徴表現を抽出する手法の詳細な検討を行った。 | 
| 当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等) | 
| 1. 言語研究と統計ウェブサイト | 
| 研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。 | 
| 第1回 2015年5月8日開催(大阪大学)「2015年度の共同研究計画についての打合せ」参加者15名 | 
| 研究参加者一覧 | |
| 氏名 | 所属機関 | 
| 浅野 元子 | 大阪大学 | 
| 今尾 康裕 | 大阪大学 | 
| 岩根 久 | 大阪大学 | 
| 上阪 彩香 | 同志社大学大学院 | 
| 木山 直毅 | 大阪大学 | 
| 後藤 一章 | 摂南大学 | 
| 小林 雄一郎 | 立命館大学 | 
| 杉山 真央 | 大阪大学 | 
| 八野 幸子 | 大阪大学大学院 | 
| Hodoscek Bor | 大阪大学 | 
| 前田 忠彦 | 統計数理研究所 | 
| 南澤 佑樹 | 大阪大学 | 
| 三宅 真紀 | 大阪大学 |