平成232011)年度 一般研究2実施報告書

 

課題番号

23−共研−2027

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

マイニング技術を応用したテクスト分析研究

フリガナ

代表者氏名

タバタ トモジ

田畑 智司

ローマ字

Tabata Tomoji

所属機関

大阪大学

所属部局

大学院言語文化研究科・言語文化専攻・言語情報科学講座

職  名

准教授

配分経費

研究費

40千円

旅 費

305千円

研究参加者数

9 人

 

 

研究目的と成果(経過)の概要

本共同研究は,工学的マイニング技術を応用したテクスト分析の方法論を開発し,統計学を高度に応用した言語研究の可能性を探る試みである。このプロジェクトは大きく分けて二つの層で構成されている。一つは基盤となる電子化言語資料(コーパス)の開発構築,もう一つは電子化言語資料から抽出したデータの統計学的分析研究である。

コーパスの開発構築については,英・仏・ギリシャ語の文学作品,聖書などの電子化,英・独・仏語の大規模汎用コーパスの編纂,マークアップ言語XMLによる文書の構造化など,研究基盤となる言語資料の電子化やマークアップ法,データ解析ツールの開発などの仕事を遂行した。

言語データの統計学的解析については,語彙,コロケーション,意味構造などのレベルにおける言語使用の実態研究,言語使用域(ジャンル)間の言語変異の考察や,著者推定・文体識別,共観福音書の類型化などの研究を実施した。本研究では特に,ランダムフォレスト,CART, Baggingなどの機械学習アルゴリズムに基づく手法の他,対応分析,因子分析,判別分析など,さまざまな多変量解析の手法を用いたテクストの言語特徴抽出のための方法論を比較検討し,データマイニングや情報抽出などの応用事例を視野に入れた高精度の分類法や文体分析法,著者推定法,現代英語の語法研究などを行った。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

統計数理研究所共同研究リポート No. 278「マイニング技術を応用したテクスト分析研究」(研究課題番号23-共研-2027)

三宅 真紀 「語彙の特徴度指数による文書の特徴分析---English Woman's Journalの多変量解析---」, pp. 3--16
岩根  久 「押韻ラベル付与の自動化に向けて---ソネの押韻構成分析のためのRスクリプト---」, pp. 17--22
後藤 一章 「日英パラレルコーパスからの対訳コロケーションの抽出---対訳単語抽出手法を利用して---」, pp. 23--30
小林 雄一郎 「テキストマイニングで見る『機動戦士ガンダム』」pp. 31-44
Tomoji Tabata 'Key' Words and Stylistic 'Signatures': Textometry with Random Forests, pp. 45--64
Ryusho Shibutani A corpus-based analysis of the "to-be deletion" in complements of the verb want, pp. 65--87.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

2011年9月22日に統計数理研究所・3階セミナー室において名古屋工業大学・小山由紀江教授が研究代表をつとめる「ESP コーパスに基づいた特徴表現の教育的応用」共同研究班と合同研究会を行った。
発表一覧は以下の通り:
・浅井 淳 なでしこ心理
・小山 由紀江 科学技術英語のMWE抽出と教育への応用 その4
・藤枝 美穂 科学技術系ESPコーパス設計についての一考察
・澁谷 竜昇 英語補文における"to-be削除"の大規模コーパス分析
・小林 雄一郎 Intensifiers and hedges in the English Woman's Journal and the
American Ladies Magazine
・中尾 桂子 日本語学習者の添削済み作文における 違和感について
・三宅 真紀 Keynessに基づくネットワーク図による文書分類の試み
・田畑 智司 Random ForestsによるDickensの文体的特徴のマイニング
参加者は10名。

また,2012年3月7ー8日に統計数理研究所にて言語系共同利用研究グループ合同の公開セミナー「言語研究と統計2012」を開催した。詳細は以下の通り:
プログラム
コメンテーター 前田 忠彦(統計数理研究所)
総合司会 田畑智司(大阪大学)
3月7日 (水)
Session 1 (司会:高見 敏子)
・石川 慎一郎「文末表現「です」「ですよ」「ですね」「ですよね」の計量的研究」
【概要】 日本語の文末表現を変種別・時代別に調査し,使用状況の差を跡付けた上で,FTA理論の観点から機能を再考する。

・井上 聡 (short paper)「日本人英語学習者による品詞使用の課題」
【概要】 BNCにおいて,一般的な英語における品詞の出現状況の概観を行う。続いて,母語話者と学習者の英作文データにおける主要品詞の出現状況を計量し,比較検討を通して,学習者の課題を把握し,教育的示唆を得る。

・カレイラ松崎順子「Korean Educational Broadcasting System English(EBSe)の小中学生対象の番組のコーパス分析」
【概要】 本研究では韓国教育放送公社の英語教育番組を専門に放映するKorean Educational Broadcasting System English (EBSe) の小学6年生対象のSEL 5のTok Tok Englishおよび中学1年生対象のSEL6のNonstop Englishのコーパス分析を行った結果を発表する。

Session 2 (司会:石川 慎一郎)
・松下 英利香 (short paper)「日本人英語学習者による前置詞使用の問題点」
【概要】 先行研究によって異なる前置詞の範囲を計量的に定め,基本前置詞の出現状況をコーパス分析によって概観する。また,具体的な前置詞(around)をサンプルとして取りだし,意味単位で学習者の使用状況を探る。

・郭 奐君 (short paper)「外国人のためのカタカナ語指導システムの構築と有効性の検証」
【概要】 「カタカナ語サ変動詞における「を」の出現条件について:コーパスを用いた計量的研究」で得られた判別ヒントが,カタカナ語サ変動詞における「を」の有無の学習に役立つかどうかを明らかにするため,統制群と実験群を作って,実験で検証する。

・李 允昊 (short paper)「韓国人学習者を対象とした「〜込む」型複合動詞の教材開発の試み」
【概要】 日本語教育における複合動詞の教材のあり方について検討するため,複合動詞「〜込む」を例に,理解度を測るテスト,学習を支援する教材シートを開発し,統制群と実験群を設けて実験を行い,学習シートの効果を検証する。

Session 3 (司会:石川 有香)
・三宅 真紀「語彙の特徴度指数による文書の特徴分析」
【概要】 本発表は,19世紀の英国定期刊行誌を集めた大規模コーパス"The Nineteenth Century Serial Edition"に含まれる刊行誌"English Woman's Journal"の記事の分類を試みる。各記事の特徴語(Keyness)をカイ二乗値やTF-IDFの指標から抽出し,階層的クラスター分析に適用して記事の分類および語彙の特徴を観察する。

・田畑 智司「テクストマイニングからテクスト分析へ:Wilkie Collinsとの共著作品におけるCharles Dickensの文体を計る」
【概要】 Random forestsと系統樹,主成分分析などの統計手法を援用して,19世紀英国の作家Charles DickensとWilkie Collinsの共著作品の文体的特徴を分析する。文献学的資料から得られる外的エビデンスと,(一次資料である)テクスト統計解析の結果得られる内的エビデンスとを比較検討し,共著作品における二人の作家の関与・貢献の度合いおよび,共著作品におけるDickensの文体を考察する。

・後藤 一章「日英パラレルコーパスを用いた対訳コロケーションの抽出」
【概要】 日英パラレルコーパスから対訳コロケーションの機械的な抽出を試み,その抽出精度や課題などを検討する。

Session 4 (司会:田畑 智司)
・小林 雄一郎 (short paper)「対話形式データのテキストマイニング(仮)」
【概要】 本発表では,戯曲や国会議事録のような対話形式の言語テキストを分析対象とし,登場人物間のネットワークやテキスト内の時系列変化を可視化する手法を探る。

・澁谷 竜昇 (short paper)「動詞 'want' の補文に見る "to-be 削除" のコーパス分析」
【概要】 英語の補文構造に関して,いわゆる「to-be削除」と称されている現象に着目し,'to be' の有無が構文に与える意味的特徴を考察する。具体的には,動詞 'want' がとる補文構造に生起する形容詞をBNCより抽出し,それらの形容詞の生起パタンが,スケール構造に関する一定の傾向性を持つことを示す。

・木山 直毅 (short paper)「英語「動詞」派生形態素"-ise"と"-ify"の意味/機能的差異」
【概要】 英語の「動詞」を生み出す接辞は"-ate", "-en", "-ify", "-ise", とconversionなど,多様である。どの形態素がどの語に適用されるか,という分析において,Plag(1999, 2000, 2003)では"-ise"と"-ify", "-ate"の3つを取り上げて分析している。Plagは特に"-ise"と"-ify"を音韻的に条件付けられた異音で,意味的な相違はない,と結論付けている。しかし,Plag本人の挙げた事例,"passiv-ify"と"passiv-ise"が完全な同意語とは言えない。これはPlagの用いたツールと同じOEDを見れば一目瞭然である。故に,本発表ではPlagの問題点を補い,共起語の関係から"-ise"と"-ify"の接辞の意味的/機能的な違いを探索する。


3月8日 (木)
Session 5 (司会:後藤 一章)
・ 今道 晴彦「現代ドイツ語の程度副詞に見られる年代差とジャンル差:語彙・コロケーション・共起構造に注目して」
【概要】 本発表では,過去100年間のフィクションと学術書を元に,対応分析やネットワーク分析などの手法を援用してドイツ語程度副詞の使用傾向を探る。語彙・コロケーション・共起構造に注目して,当該副詞の通時的特徴や文語的特徴の抽出を試みると共に,口語と文語の間にあると想定される使用上の差異についても推察してみたい。

・中尾 桂子「国文学・国語学系論文のアカデミック性と文系学生のアカデミック性」
【概要】 国文学系と国語学系論文で使用頻度に有意差の見られる語句を指標に,二分野の判別分析を行なう。また,二分野それぞれと,文系学生のレポートを比較して,使用頻度に有意差の見られる語句を特定する。これらの結果から,アカデミック性判断の手がかりになりそうな国文学系(または国語学系)論文「らしい」語句,すなわち,文系学生の論文度向上に影響がありそうな語句について考察する。


・長 加奈子・川瀬 義清 「日本人英語学習者の意味構造に関する統計的研究」
【概要】 本研究は,日本人英語学習者と英語母語話者が英語に対して持っている意味構造がどのように異なるのか,また似ているのかを探るために,統計手法を用いて分析する。長は英語の前置詞表現に焦点を当て,日本人英語学習者,中国人英語学習者,英語母語話者の3グループの違いについて,また川瀬は英語の受動文に焦点を当て,日本人英語学習者と英語母語話者の違いについて考察を行う。

Session 6 (司会:長 加奈子)
・小山 由紀江「Coh-Metrix を使った科学技術英語テキストの分析」
【概要】 教材の作成にはテキストの難易度が適切であるかどうかを調べる必要があるが,従来のリーダビリティー標識は単語の長さや構文の複雑さなど形式的な要素のみを基に計算されていた。Coh-Metricsは,coherenceやcohesionを視野に入れた分析を行うことにより従来とは異なる視点から「読みやすさ」「読みにくさ」の指標を算出する。科学技術の異なる難易度のテキストを分析することにより,意味に踏み込んだ指標の可能性について考察する。

・中野 智文「科学技術英語コーパスの語彙頻度のスムージング」
【概要】 語彙出現頻度のスムージング手法として、ベイズ学習に基づいた尤度の期待値を用いた方法とGood-Turingの方法を考察し、科学技術英語コーパスを用いて検証する。

・高見 敏子「BNCとBoEにおける英国全国紙の語彙頻度データの分析」
【概要】 イギリスの大規模コーパスであるBritish National Corpusと以前のBank of Englishに含まれていたそれぞれ5つの英国全国紙のサブコーパスから得た語彙や品詞の頻度データを様々な角度から分析する。

Session 7 (司会:小山 由紀江)
・ 石川 有香「会話における謝辞表現と話し手の属性」
【概要】 本発表では,ジェンダーとポライトネスの観点から会話における謝辞表現を分析したIshikawa (2011)を踏まえ,性や社会階層などの話し手の属性と,謝辞表現の使用頻度の関係を調査する。

・ 浅井 淳「なでしこ心理」
【概要】 サッカー女子日本代表チームに関する日本語新聞記事を例に,愛称の(1)浸透,(2)独立性,(3)一人称代替としての強意集合名詞的使用,ならびに(4)自身への客観視など社会言語心理的な要素について考察する。

 

研究参加者一覧

氏名

所属機関

今尾 康裕

大阪大学

岩根 久

大阪大学

木山 直毅

大阪大学

後藤 一章

摂南大学

小林 雄一郎

大阪大学

澁谷 竜昇

大阪大学

前田 忠彦

統計数理研究所

三宅 真紀

大阪大学