平成212009)年度 重点型研究実施報告書

 

課題番号

21−共研−4301

分野分類

統計数理研究所内分野分類

b

主要研究分野分類

2

研究課題名

統計手法に基づく日本語動詞の意味分類

重点テーマ

言語と統計

フリガナ

代表者氏名

フクモト フミヨ

福本 文代

ローマ字

Fukumoto Fumiyo

所属機関

山梨大学

所属部局

大学院医学工学総合研究部

職  名

准教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

4 人

 

研究目的と成果(経過)の概要

本研究は, 情報爆発時代に真に対処可能な知的基盤技術を構築するための知識源として, Webデータから抽出した文の構造に関する統計情報を利用することで, 日本語動詞の語義分類手法を開発することを目的とする.
本研究では, 多義語を含む日本語動詞の意味分類手法を提案する. 分類のための一手法として, Reichardt らにより提案されたグラフベースの教師なしクラスタリング手法(RBアルゴリズム) を用いる. RBアルゴリズムは磁性体分類のためのソフトクラスタリング手法であり, エネルギーが最小になるように磁性体を分類する. 我々はこの手法を動詞の意味分類に適用した.
一般に, 意味的に類似した動詞は同じ格構造を持つことから, 動詞を格構造パターンを次元とするベクトルで表現し, ベクトル同士の分布間類似度に基づき, クラスタリングを適用する手法が多く用いられている. しかし, コーパスなどから抽出した動詞は, 多数の格構造パターンをもつことから, 結果的に高次元空間での分類となるため, クラスタリングの精度に悪影響を与える場合が多い. 我々はこの問題に対処するため, リンク解析を利用することで, 動詞の意味分類に必要となる格構造パターンのみを抽出し, これを用いて動詞の意味分類を行う手法を提案する.     IPAL 日本語動詞辞書を用いた実験の結果, 関連研究の一つであるEM アルゴリズムを超える精度が得られることを確認した.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

Classifying Polysemies using a Graph-based Clustering, F.Fukumoto et al, The 4th Language and Technology Conference, pp.210-214, 2009.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

テーマ:[言語と統計]研究報告会
日時:平成22年3月2日 13:00〜17:20
場所:統計数理研究所
参加者数:25名

 

研究参加者一覧

氏名

所属機関

鈴木 良弥

山梨大学

前田 忠彦

統計数理研究所

山下 和之

山梨大学