平成222010)年度 一般研究2実施報告書

 

課題番号

22−共研−2029

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

テキストマイニングの応用とその環境整備

フリガナ

代表者氏名

イシダ モトヒロ

石田 基広

ローマ字

Motohiro ISHIDA

所属機関

徳島大学

所属部局

大学院ソシオ・アーツ・アンド・サイエンス研究部

職  名

准教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

4 人

 

 

研究目的と成果(経過)の概要

 言語・テキストデータを定量的に調査する手法として、テキストマイニングが各種分野に浸透しつつある。一方で、テキストマイニング技術への要求も高まっている。たとえば日本語テキストを解析する場合、「馬」、「うま」、「ウマ」などの異字体や、あるいは「きれい」、「美しい」などの同義語を前処理して、解析精度を向上させることが望まれる。
 本研究では、研究代表者が作成した日本語係り受け解析を行うソフトウェアである RCaBoCha に,異体字や同義語の前処理を行う機能を追加する作業とその検証を行った。
作業では情報通信研究機構が開発公開している「日本語WordNet」データベース(http://nlpwww.nict.go.jp/wn-ja/) を取り込む機能の実装を行った。日本語WordNetは類義語のセットをsqlite3形式のデータベースとして提供しているため、Rと親和性が高い。同義語や異字体を R 内部から利用可能し、WordNet を検索することで異字体や同義語を前処理するシステムの構築に着手し、RCaBoCah から同義語などの検索機能を追加することができた。
ただし日本語 WordNet の出力から、テキストマイニングを実行する研究者が、必要とする結果を取捨選択する作業は、どうしてもヒューリスティックなものになる。この作業はプログラミングの知識と技能を持たないユーザーにはきわめて煩雑な作業となる。そのため、RCaBoChaをさらに拡張し、GUIによるインターフェイスを改善することが望まれるが、これについては今後の課題とする。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

石田基広「テキストマイニングツール RMeCabと RCaBoCha について」統計関連学会連合大会、2010年9月8日(早稲田大学).

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

「Rの拡張について1」2010年11月25,26日・統計数理研究所・2名
「Rの拡張について2」2011年1月24,25日 ・統計数理研究所・2名

 

研究参加者一覧

氏名

所属機関

石田 和枝

徳島大学

岸江 信介

徳島大学

中野 純司

統計数理研究所