平成242012)年度 共同利用登録実施報告書

 

課題番号

24−共研−6

分野分類

統計数理研究所内分野分類

b

主要研究分野分類

2

研究課題名

統計手法に基づく未知語の意味分類

フリガナ

代表者氏名

フクモト フミヨ

福本文代

ローマ字

Fukumoto Fumiyo

所属機関

山梨大学

所属部局

大学院医学工学総合研究部

職  名

教授

 

 

研究目的と成果の概要

知的な知識処理を実現するための技術として, 自然言語の意味処理技術に関心が寄せられ, 実際に利用されつつある. 自然言語の意味処理を行うためには言語知識を大量にもつことが必要となるが, 特に語彙知識は各種の意味処理において必須の知識源となる. 語彙知識源として利用されている日本語辞書の一つに計算機用日本語基本動詞辞書IPAL(情報処理振興事業協会) と呼ばれる語彙辞書がある. IPALは, 文の構造に基づき語彙の分類体系である意味クラスが設定されているため, 構文から意味へと処理する自然言語の機械処理との親和性が良い. 従って文書データ中の単語をIPALの分類体系に分類する手法が確立できれば, 次々と創り出され使用される新語に対しても機械処理が可能となり, 情報爆発時代に真に対処可能な意味処理のための知識源が構築可能となる.
本研究は, 2010年度に実施した未知語の意味推定の継続課題であり,大規模新聞記事データから抽出した文の構造に関する統計情報を利用することで, 辞書に記載されていない動詞を辞書に追加する手法を開発した.具体的には,Reichardt (Reichardt'06)らが提案した磁性体分類のためのクラスタリングアルゴリズムに対して制約を設けることで半教師つき学習に拡張することで,未知語の意味分類を行った.実験では,先行研究との比較のためにKorhonen (Korhonen'03)らが作成した110からなる動詞データを用いた. これらのデータに対して,無作為に10%の動詞を抽出し,ラベルありデータとして用いた.残りのデータをラベルなしデータとして用い,これを10回繰り返し平均精度を求めた.評価尺度としてRecall, Precision, F-scoreを用いた.また,Schulte(Schulte'08)らが提案したソフトクラスタリングの一つであるEM algorithm を用いた動詞分類との比較を行った.実験の結果,EMはPrecision, Recall, F-scoreがそれぞれ0.301, 0.512, 0.387であるのに対し,本手法はそれぞれ0.536, 0.626, 0.577の精度が得られた.また,ラベルデータの割合に対する精度を比較した結果,10%から90%までの全て対して本手法の精度がEMよりも優れていること,特にPrecision が優れていることが明らかになった.