様式Ｃ－２－４

平成22（2010）年度　重点型研究実施報告書

課題番号	22－共研－4201		分野分類			統計数理研究所内分野分類			b
						主要研究分野分類			2
研究課題名	統計手法に基づく未知語の意味推定
重点テーマ	言語と統計
フリガナ代表者氏名	フクモト　フミヨ福本　文代				ローマ字		Fukumoto Fumiyo
所属機関	山梨大学
所属部局	大学院医学工学総合研究部　生体環境医工学系
職　　名	准教授
配分経費	研究費	0千円		旅　費		0千円		研究参加者数		1　人

研究目的と成果（経過）の概要

知的な知識処理を実現するための技術として, 自然言語の意味処理技術に関心が寄せられ, 実際に利用されつつある. 自然言語の意味処理を行うためには言語知識を大量にもつことが必要となるが, 特に語彙知識は各種の意味処理において必須の知識源となる。語彙知識源として利用されている日本語辞書の一つに分類語彙表（国立国語研究所）と呼ばれる語彙辞書がある. 分類語彙表は87,743語からなる基本単語が人手により32,636クラスに分類されている．従って1クラスあたりの語彙数は2.69であり，大規模データを網羅しているとはいい難い. 従って文書データ中の単語を分類語彙表の分類体系に分類する手法が確立できれば, 次々と創り出され使用される新語に対しても機械処理が可能となり, 情報爆発時代に真に対処可能な知的基盤技術を構築することが可能となる．
本研究は, 情報爆発時代に真に対処可能な知的基盤技術を構築するための知識源として, 大規模新聞記事データから抽出した統計情報を基に，言語特徴を抽出するための3種の全く異なる尺度を利用することで，分類語彙表に記載されていない単語を辞書に追加する手法を開発することを目的とする. 本研究では，大規模データである新聞記事データから言語特徴を抽出するための尺度として，(1) 編集距離，(2) k個までの相互最近傍，(3) 半教師付きクラスタリングを提案した．最終的な分類は，各手法で得られた結果のvoting により決定される．15年分から成る毎日新聞記事（1,595,817文書）を用いて実験を行った結果，既存手法よりも大幅な精度の向上を確認することができた．さらに3種の尺度のうち，編集距離が最も精度に貢献すること，半教師付きクラスタリングによる精度は，1クラス内の単語数の増減に依存することが明らかになった．現在，手法のロバスト性を評価するため，Levin’s English Verbs と呼ばれる英語クラスへの適用を試みている．

当該研究に関する情報源（論文発表、学会発表、プレプリント、ホームページ等）

“Semantic Classification of Unknown Words based on Graph-based Semi-supervised Clustering”, F. Fukumoto and Y. Suzuki, International Conference on Knowledge Engineering and Ontology Development, 2011 (論文投稿中)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

テーマ：[言語と統計]研究報告会]
日時：平成２２年３月１４日　10:30～15:30
場所：統計数理研究所
申請者は、地震による交通機関の影響により参加できなかった。

研究参加者一覧
氏名	所属機関