平成212009)年度 一般研究2実施報告書

 

課題番号

21−共研−2031

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

テキストマイニングを応用した言語研究とその環境整備

フリガナ

代表者氏名

イシダ モトヒロ

石田 基広

ローマ字

Motohiro ISHIDA

所属機関

徳島大学

所属部局

総合科学部人間社会学科

職  名

准教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

7 人

 

 

研究目的と成果(経過)の概要

本研究では、自然言語処理と統計解析の二つのフェーズを、フリーの統計解析環境 R 上でシームレスに実現する方法を検討し、その環境の整備を目指した。
はじめにテキストマイニング技術を研究において利用している方言学の岸江、また心理学の小杉から、ユーザーサイドでテキストマイニングに必要とされる要件について提案があった。
特に強く提案されたのはテキストの頻度情報をある特定カテゴリ(性別)などと連携づけられることであった。さらに、それぞれ専門分野特有の要望はあるが、共通点としては、GUI環境の整備と、ポピュラーな解析手法へのアクセスしやすさという提案もあった。
これに対して中野、中島、石田が技術的な検討を行った。まず統計解析ソフトとしてはフリーながら強力な言語環境であるRをベースに、ここに日本語解析機能を組み込むことを目指した。日本語解析ソフトとしてはフリーのMeCabが有名である。また石田はすでに RMeCab という日本語解析用 R パッケージを公開している。しかし今回は MeCab にはない係り受け判定機能を含む日本語解析器CaBoCha を利用することに決めた。
R は C言語による拡張が可能であるため、石田が、R からバックグラウンドで CaBoCha を呼びだし、その解析結果を再びR に戻すためのインターフェイス RCaBoCha の開発を進めた。RCaBoCha には単体テキストの頻度表を作成する単純な機能から、複数テキストから各種 NgramR を出力する機能に加え、RMeCab には実装されていなかった係り受け頻度情報を抽出する機能を加えた。その後、岸江らに実際のデータで利用してもらったうえで、RCaBoCha は一般に公開している。
GUI拡張については、当初 R のRcmdr へメニューを追加するのが適当であると判断したが、その後、RExcel というRの拡張パッケージを導入することで、RおよびRMeCab を Excel から操作することが可能であると判明し、現在は、RExcel との統合を進めている。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1) http://groups.google.co.jp/group/rmecab
2) http://groups.google.co.jp/group/rcabocha

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

テーマ:テキスト研究とその環境整備
6月15日月曜
新館2階 特別会議室
6名参加

 

研究参加者一覧

氏名

所属機関

石田 和枝

徳島大学

岸江 信介

徳島大学

小杉 考司

山口大学

小林 雄一郎

法政大学

中島 功滋

特定非営利活動法人教育テスト研究センター

中野 純司

統計数理研究所