平成252013)年度 共同利用登録実施報告書

 

課題番号

25−共研−5

分野分類

統計数理研究所内分野分類

b

主要研究分野分類

2

研究課題名

時系列データを対象とした語義に関する局所特徴量の抽出

フリガナ

代表者氏名

フクモト フミヨ

福本文代

ローマ字

Fukumoto Fumiyo

所属機関

山梨大学

所属部局

大学院医学工学総合研究部

職  名

教授

 

 

研究目的と成果の概要

本研究は、長期間に渡る時系列文書データを対象とした検索に有効な語彙的意味処理技術の開発を目的とする。具体的には、分野語義辞書を開発し、時系列モデルに基づき語義の局所特徴量を抽出することにより、意味に基づく時系列データ処理を実現する。またこれらを用いることで出来事に関する各記事の話題が認識可能となり、ユーザが指定した出来事に関する一連の内容を高精度で抽出・提示できることを示す。本研究の成果は、日々配信される情報を有効に活用するための知的アクセス基盤を提供するのみならず、過去の事例から将来起こりうる問題を予測し事前に対処するための知識発見の技術として、産業界における多様な分野での利用が期待できる。
 本研究で提案する分野語義辞書は、MRWモデルの一つであるPageRankに基づく手法であるため、分野ごとに単語の語義を要素とする行列の固有値を求める必要がある。PageRankはdumping factorにより性能が変わり、その空間を探索することが重要である。また日本語EDR辞書と英語WordNet、すなわち大規模実データに対して分野を付与することを検討している。そこで研究所の計算機設備を利用させていただくことで並列化を実施し、分野語義辞書の開発を行う. 平成25年度は,日本語EDR辞書と英語WordNetの名詞単語について、分野ごとに頻出する語義を固有値計算を用いて求めた. 日本語で対象とした分野は毎日新聞の分野11分野を用い,英語はReutersの分野126分野のうち,40分野を使用し,各分野に頻出する語義を求めた.現在,評価を実施している.