平成262014)年度 一般研究2実施報告書

 

課題番号

26−共研−2050

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

6

研究課題名

統計解析言語Rによる人文学データのマイニング方法論研究

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科・言語文化専攻・言語情報科学講座

職  名

准教授

配分経費

研究費

40千円

旅 費

243千円

研究参加者数

14 人

 

 

研究目的と成果(経過)の概要

パーソナルコンピュータ、インターネットの普及により、文書・資料の電子化が急速に進み、電子文書の量は爆発的に増大している。これにともない、膨大な自然言語データの中から有益な情報を効率的に抽出するための情報マイニング技術の開発が学界のみならず産業界においても求められている。大規模な自然言語データを分析・活用するためには、従来の言語学、文献学の理論・方法論に加え、情報工学、統計数理学、行動科学など関連領域の知見を統合した学際的なアプローチが必要である。

そこで本共同研究は,言語工学,計量言語学・コーパス言語学,多変量解析,機械学習など関連諸分野の知見を有 機的に統合したマイニング方法論を開発し,統計解析言語Rを高度に活用したデータマイニングによって人 文学データに新たな光を当てることを目的とした。このプロジェクトは大きく分けて二つの層で構成されている。 一つは基盤となる電子化人文学資料の開発構築,もう一つは電子化人文学資料から抽出したデータの統計学的分析研究である。

前者には英語,仏語,日本語古文,ロシア語,ギリシャ語の文学作品,聖書,歴史資料などのデジタル化など,研究基盤となる諸資料の電子化やマークアップ法,データ解析ツールの開発などの仕事が含まれる。

一方,人文学データのマイニングの事例として,文書の著者推定,共著書の文体識別法の研究,文書の類型分析や,異本間の比較,歴史資料からの知識抽出などの研究が挙げられる。本研究では特に,対応分析,因子分析,判別分析などの伝統的な多変量解析手法に加えて,ランダムフォレストやサポートベクターマシン,ニューラルネットワークなどのツールを適用して文書・文体の特徴抽出のための方法論を比較検討し,テクストマイニングや情報抽出などの応用事例を視野に入れた高精度の文書分類法や著者推定法・文体識別法を確立することを目標とした。

本研究遂行のために,当研究班は大阪大学にて月一回の月例研究会を実施して,研究計画の進捗を緻密に確認しながら,各メンバーがそれぞれの課題に応じたリサーチデザインを策定した。2014 年 8 月 25,26 日には,神戸大学百年記念会館にて受入教員である前田忠彦准教授に出席いただき,神戸大学・石川慎一郎研究班,名古屋工業大学・小山由紀江研究班,同・石川有香研究班,北九州市立大学・長加奈子研究班と合同の中間報告会を開催した。詳細は下記研究発表欄に記載する。

本計画の集大成として,3月23日,24日に統計数理研究所において,公開セミナー「言語研究と統計2015」を開催し,各メンバーが研究成果を発表した。代表者の田畑は18,19世紀英国小説コーパスを多変量解析によって分析し,同コーパスに見られる史的文体変化の相,男性作家と女性作家の文体差などについて論じた。岩根久はN-gramを変数として16世紀フランスの詩人ロンサールのソネ集を分析し,音特徴によって各詩集の作風が識別できることを論じた。三宅真紀はDickens Lexiconの項目間のネットワークを視覚化することにより,Lexiconから関連度の高い項目をリンク表示するシステム構築につなげる可能性を提示した。後藤一章は多言語コーパス Tatoeba に見られる日・英語の対応する動詞句を抽出を試み,同コーパスを対訳表現の抽出に活用する有効性を論じた。八野幸子はRandom Forestsを用いて英語理学療法論文と他の医療分野の学術論文との分類識別を行い,英語理学療法論文の特徴語を提示した。木山直毅は非段階的形容詞における意味強制が生起する条件を統計検定を用いて説明した。杉山真央はロシア大統領の新年挨拶にテクストマイニングの手法を応用し,1991年のエリツィン政権から2015年のプーチン政権にいたる時系列的推移とともに人称代名詞の使用にいかなる変化が見られるかを論じた。上阪彩香は井原西鶴の浮世草子と北条団水の浮世草子を数量的に比較し,両者の文体の差異を語るとともに,西鶴の作品の系譜を量的観点から裏付けた。

以上のように,各メンバーが扱う題材はそれぞれ異なるものの,統計解析言語Rならびに本研究課題で開発したテクスト解析用のRスクリプトが本研究グループの個々の研究を結ぶmethodological commonsとして機能したことを強調しておきたい。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

統計数理研究所共同研究リポート345『人文学データのマイニングII』(2015年3月)

・田畑 智司 「はじめに」(pp. i--ii)
・後藤 一章 「日英対訳表現の抽出処理からみる多言語コーパスTatoebaの有効性」(pp. 1--9)
・岩根  久 「16世紀フランス詩の音の分析に向けて?N-gramとデンドログラムの利用?」(pp. 11--20)
・木山 直毅 「形容詞の段階性における意味強制:非段階的形容詞から段階的形容詞への強制」(pp. 21--39)
・八野 幸子 「Random Forestsによる特徴語抽出?抽出語の安定性に関する調査?」(pp.41--51)

http://language.sakura.ne.jp/s/langstat.html#stat2015

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

2014 年 8 月 25,26 日には,神戸大学百年記念会館にて受入教員である前田忠彦准教授に出席いただき,神戸大学・石川慎一郎研究班,名古屋工業大学・小山由紀江研究班,同・石川有香研究班,北九州市立大学・長加奈子研究班と合同で中間報告会を開催した。参加者数は20名。

8月25日(月) 10:30--17:30
石川慎一郎 神戸大学 現代日本語における終助詞用法パタンの変遷
石川有香 名古屋工業大学 工学ESP語彙
今尾康裕 大阪大学 英語ライティングの質的変化を量的に探る
今道晴彦 神戸大学非常勤 ヨーロッパドイツ語学習者間における相互関係の検討:文法項目を手掛かりとして
植田正暢 北九州市立大学 二重目的語動詞refuse/denyと受動態
緒方高士 神戸大学M  アジア圏学習者による英語前置詞使用
川瀬義清 西南学院大学 前置詞 by のスキーマと意味の広がり
木山直毅 大阪大学D  閉鎖スケールとveryの共起関係
小山由紀江 名古屋工業大学 工学部学部生の学習語彙
曹卓キ(漢字が本ウェブページでは表示不可) 神戸大学M研 日本語学習者の頻度副詞運用の課題
田畑智司 大阪大学 Rolling Logit Modelで動的文体変化をつかむ
長加奈子 北九州市立大学 日本人英語学習者の二重目的語構文の使用から見える事態把握の特徴
講話(ISM)  前田忠彦
8月26日(火曜) 9:30--12:30
張ギ(漢字が本ウェブページでは表示不可) 神戸大学M  コーパスに基づくV2「あう」の共起V1パタン
中尾桂子 大妻女子短 非対面ピア・レスポンスの有用性分析の観点
八野 幸子  大阪大学D  英語理学療法論文における高頻度フレーズ使用傾向に関するコーパス研究?Corpus of Contemporary American Englishとの比較?
藤枝美穂 京都医療科学大学 放射線科学関連語彙(仮)
宮崎 佳典  静岡大学  「技術文献コーパスを用いた例文提示型英文書作成支援ツール:句構造も取り入れてみた編」
李楓 神戸大学D  学習者の漢語サ変動詞使用
講話(ISM)  前田忠彦


統計数理研究所言語系共同研究グループ合同発表会
「言語研究と統計2015」参加者数50名
●日時:2015年3月23日(月)10:20〜18:10/24日(火)10:00〜13:00 
●会場:統計数理研究所(東京都立川市緑町 10-3)
●オーガナイザー 石川慎一郎(神戸大学)
●指導講話 前田忠彦(統計数理研究所)

●プログラム
3月23日(月)
1000 開場
1020-1030 開会挨拶 石川慎一郎(神戸大)
1030-1055 長 加奈子(北九州市立大)英語学習者の二重目的語構文・与格構文の使用に関する一考察
1055-1120 後藤 一章(摂南大)「対訳表現抽出から見る多言語コーパス Tatoeba の有効性」
1120-1145 今道 晴彦(神戸大非)キーワードとキーセンテンスに基づくドイツ語要約文の評価
1145-1210 石川 慎一郎(神戸大)英日対照言語研究用小説テキストデータセットの構築の試み:EJ-MoFiCの概要
(1210-1300 昼食休憩)
1300-1325 石川 有香(名古屋工大)エッセイにおけるジェンダー特性表現の抽出
1325-1350 岩根 久(大阪大)フランス16世紀の詩人ロンサールのソネの音韻構造
1350-1415 小山 由紀江(名古屋工大)・木村 哲夫(新潟青陵大)科学技術英語コーパスに基づくコンピュータ適応型テスト
(1415-1420 休憩)
1420-1445 三宅 真紀(大阪大)ネットワーク図からみるディケンズ・レキシコン・デジタルー"word/words"を含む見出し語を中心にしてー
1445-1510 中野 智文(VOYAGE GROUP)ブートストラップ手法を用いた学習不用語の除去
1510-1535 中尾 桂子(大妻女子短大)成績に影響する学習条件とその効果
(1535-1540 休憩)
1540-1605 大橋 浩(九州大)名詞句から副詞句への変化と頻度
1605-1630 田畑 智司(大阪大)Distant reading and text analysis: 18世紀,19世紀英文学を俯瞰する
1630-1655 渡部 孝幸(静岡大)・田中 省作(立命館大)・宮崎 佳典(静岡大)構文構造と共起性を考慮した英文汎化手法
1655-1720 植田 正暢(北九州市立大)refuse/denyが生じる二重目的語構文と受動態
(1720-1730 休憩)
1730-1800 指定討論 前田 忠彦(統計数理研究所)

3月24日(火)
1000-1020 八野 幸子(大阪大院生) Random Forestsによる英語理学療法論文からの特徴語句の抽出‐ Corpus of Contemporary American English Full Text版を参照コーパスとして
1020-1040 木山 直毅(大阪大院生)非段階的形容詞における意味強制とその解釈
1040-1100 李 楓(神戸大院生)重要漢語サ変動詞の自他分類?コーパス調査に基づく辞書記述の検証?
(休憩)
1105-1125 張 ギ(漢字が本ウェブページでは表示不可)(神戸大院生)複合動詞V2「あう」の意味区分の再考
1125-1145 張 莉(北京外大/神戸大院生)李大ソウ(漢字が本ウェブページでは表示不可)の平民主義と中日思想の関係:コーパス分析に基づく計量的概観
1145-1205 杉山 真央(大阪大院生) ロシア大統領の新年挨拶から見るロシア国内の変遷?エリツィン政権(1991)からプーチン政権(2015)まで?
1205-1225 上阪 彩香(同志社大院生)西鶴浮世草子の数量分析‐北条団水の浮世草子との文体比較‐
1225-1240 指定討論・閉会挨拶 前田 忠彦(統計数理研究所)

 

研究参加者一覧

氏名

所属機関

今尾 康裕

大阪大学

岩根 久

大阪大学

上阪 彩香

同志社大学大学院

木山 直毅

大阪大学

後藤 一章

摂南大学

小林 雄一郎

立命館大学

杉山 真央

大阪大学

達賀 美咲

大阪大学

八野 幸子

大阪大学大学院

Hodoscek Bor

大阪大学

前田 忠彦

統計数理研究所

三宅 真紀

大阪大学

森 真幸

大阪大学