平成272015)年度 共同利用登録実施報告書

 

課題番号

27−共研−2

分野分類

統計数理研究所内分野分類

a

主要研究分野分類

2

研究課題名

局所・大域的情報を利用した対訳語義の自動抽出

フリガナ

代表者氏名

フクモト フミヨ

福本文代

ローマ字

Fukumoto Fumiyo

所属機関

山梨大学

所属部局

大学院医学工学総合研究部

職  名

教授

 

 

研究目的と成果の概要

本研究は,英語と日本語2つの辞書から機械翻訳システムに必要となる対訳語義を自動的に獲得することを目的とする.機械翻訳は自然言語処理の成果の一つであり,コンピュータを介したユニバーサルコミュニケーションを実現するためのコア技術として注目されている.高品質な翻訳を生成するためには対訳語に関する大量の語彙知識が必要である. 近年Web をはじめとする大規模データが手軽に入手できるようになったことを背景に,大規模データから互いに類似した内容を持つ多言語関連文書を自動的に抽出し,そこから対訳語を獲得する研究が盛んに行われている.しかし,この手法における対訳語の精度は,意味的に類似した多言語関連文書を高精度で抽出できるかに依存する.これまで統計手法や機械学習をはじめとする様々な手法が提案されているが,混沌としたWeb データが抽出対象であるために,いずれも質の高い対訳語を得るまでには至っていない.さらに対訳語義まで踏み込んだ研究は少ない.
本研究はテキストコーパスと既存の辞書をを利用することで日英辞書の各語義を対応させる手法を提案することにより,質の高い大量の対訳語義を獲得することを目指す.
本研究は二言語新聞コーパスとWordNet, 及びEDR電子化辞書を用い,辞書の各語義をグラフ構造で表現することにより,語義を抽出した.さらに元言語を目的言語に翻訳し翻訳語と目的言語との類似度計算を用いることにより語義の対応関係を求めた.ロイター記事と毎日新聞1年分のデータを用いた実験の結果,語義数に少ない単語については正確な対訳語を抽出できることを確認した.