平成232011)年度 一般研究1実施報告書

 

課題番号

23−共研−1008

分野分類

統計数理研究所内分野分類

b

主要研究分野分類

2

研究課題名

電子化辞書における各語義への分野名の自動付与

フリガナ

代表者氏名

フクモト フミヨ

福本文代

ローマ字

Fukumoto Fumiyo

所属機関

山梨大学

所属部局

大学院医学工学総合研究部

職  名

教授

 

 

研究目的と成果(経過)の概要

本研究は, 情報爆発時代に真に対処可能な知的基盤技術を構築するための知識源として,既存の日本語,及び英語の語彙辞書に対して,語彙の各語義に分野情報を自動的に付与した知識源を開発することを目的とする.具体的には,例えば英語の語彙辞書であるWordNet2.1の各語彙に対し,たとえばcourtが法律分野に属するテキスト中に出現する場合には,裁判所という語義であり,スポーツの分野に属するテキスト中に出現する場合には,テニスコートという語義であるというように,語彙の各語義に分野情報を付与する.本研究で実施した内容は以下の通りである.
1. 文書分類を用いた分野候補の抽出
各語義に対して分野名を付与するためには,各語義がどの分野の主要な語義に対応しているかを求める必要がある.本研究では各語義と分野との対応を求めるため,文書分類を利用した.今,辞書に記載されている単語Aの語義をA1, A2とする.ある分野Cの訓練データに対してAを辞書中のA1のgross text で置き換え,機械学習を用いて分類を行った.テストデータを分類した結果,置き換えの前後で精度が向上した場合,A1はCの主要な語義の候補であると判断した.以上の処理を辞書中の全ての語彙に適用することで候補を抽出した.
2. Markov Random Walk(MRW)モデルを用いた分野名の同定
文書分類を用いる方法では,辞書のgross text を構成する単語数が少ないために,主要な語義であると断定することは難しい.実際,申請者が行った小規模データによる実験では,5,000単語の総語義数の約88%がいずれかの分野における主要な語義と判定された.そこでこの候補から絞り込みを行い,最終的に修行な語義を決定することを考えた.具体的には,各分野ごとに候補語義をノードとするグラフ構造で表現し,Markov Random Walk (MRW)モデルを適用することで,各分野における主要な語義を決定した.PageRankで代表されるMRWモデルの仮定は,より多くのページからリンクが張られているページほど重要なページであるということである.本研究ではノードを語義としエッジの重みを語義間の意味的な類似性とすると,多数のほかの語義と関連のある語義はその分野の収容な語義であるとみなすことができるため,MRWモデルを適用することで最終的に主要な語義を決定した.
3. WordNetを用いた実験と成果の公開
 上記手法を日英の各辞書データに適用することで,関連研究との比較を含めた定量的な評価を実施し,論文として成果を公開した.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

Semantic Classification of Unknown Words based on Graph-based Semisupervised
Clustering, F. Fukumoto and Y. Suzuki, In Proceedings of the
International Conference on Knowledge Engineering and Ontology Development(
KEOD11), pp. 37-45, 2011

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

なし.

 

研究参加者一覧

氏名

所属機関