平成172005)年度 一般研究2実施報告書

 

課題番号

17−共研−2070

専門分類

10

研究課題名

バイナリデータを用いるテキストマイニング手法の開発

フリガナ

代表者氏名

ナカノ ジュンジ

中野 純司

ローマ字

Nakano Junji

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

3 人

 

 

 

研究目的と成果(経過)の概要

インターネット,特にWWW技術が普及して,個人が利用できるテキストデータの量は膨大なものになった.そのために,自分が必要とするテキストデータを自動的に検索することが非常に重要となっている.
そのための技術のひとつとして,文章が重要と考えられる単語を含むかどうかをその文章をあらわすバイナリデータとして利用する手法がある.この場合,一つの文章は調べた単語の個数の次元のバイナリデータのベクトルで表されることになる.そして,テスト用のいくつかの文章に対して,それが重要かどうかを判断し,その結果を用いて,新しい文章が重要かどうかを判別する手法が必要となる.
Jung Jin Lee はバイナリデータベクトルのすべてのパターンに対して多項分布を仮定し,その確率を推定し,それを利用して文章の重要性を判別することを提案した.その場合,2つの単語の出現に関する標本共分散を計算し,その条件の下でエントロピーを最大化することで多項分布を推定した.この手法はいくつかの問題において有効であることが確認されている.

Lee は2006年1月8-15日に統計数理研を訪問し,Leeの手法に対する改良を検討した.ひとつの検討として,エントロピー最大化の計算アルゴリズムを考察した.その結果このアルゴリズムが分割表における Iterative proportional fitting procedure (IPFP) と同等のものであることが判明した.さらにこれらのアルゴリズムとAdaboostの間に密接な関係がありそうなこともわかった.ただ、これらとの関係で,Lee のアルゴリズムの理論的な優位性をどのように主張すればよいかに関してはさらなる検討が必要であることも判明した.なお,実際のテキストデータを用いた手法の判別能力を確かめる計算も平行して行ったが,それを中野らが開発している統計解析システムJaspで利用するまでには至らなかった.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

新たなものは特にない.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

 

研究参加者一覧

氏名

所属機関

江口 真透

統計数理研究所

李 廷鎮

崇実大学