平成172005)年度 一般研究1実施報告書

 

課題番号

17−共研−1031

専門分類

5

研究課題名

カーネル法による音声認識

フリガナ

代表者氏名

マツイ トモコ

松井 知子

ローマ字

Matsui Tomoko

所属機関

統計数理研究所

所属部局

モデリング研究系

職  名

助教授

所在地

TEL

FAX

E-mail

URL

 

 

 

研究目的と成果(経過)の概要

1.はじめに
 これまで音声認識に関しては,音響・言語など多岐にわたる様々な研究が行われてきた。最先端の技術で
は一般的に,音声信号のモデリングには隠れマルコフモデル(hidden Markov Model;HMM)が,その発声内容
(単語列)の予測には尤度最大化基準が用いられる。しかしながら,単語間の識別的な情報は利用されないた
め,多くのタスクにおいて十分な性能は得られない。また,単語列の予測は決定的に行われ,その信頼度は考
慮されない。
 一方,近年,多クラスの確率的な予測判別を行う,罰金付きロジスティック回帰マシン(penalized logistic
regression machine;PLRM)が提案された。このマシンではクラス間の識別的な情報を利用するため,高い予
測性能が期待できる。また,予測は確率的に行われるため,その確率推定量を信頼度として用いることができ
る。
 そこで本研究では,音声認識にPLRMを適用して,上記の音声認識の問題を解決することを試みた。小規模
な音声認識実験において,PLRMに基づく本方法を用いれば,従来法と比べて高い性能が得られることを示し
た。
2.研究の方法
 本方法では,PLRMの入力ベクトルとして,単語候補ごとに計算されるHMMの尤度列を用いる。PLRMの入力
ベクトルの長さは固定であるが,音声は同じ単語でも発声ごとにその長さは異なるため,その特徴量ベクトル
をそのままPLRMの入力ベクトルとして扱うことはできない。
 さらに本方法では,識別的な判別力を向上させるために,負の罰金付き尤度の最小化基準に基づいて,PLRM
のパラメータに加えてHMMのパラメータの更新も行う。
3.研究実施の状況とその成果
本方法の評価には,{B,C,D,E,G,P,T,V,Z}の9つのアルファベットを孤立発声した単語音声(T146データベー
ス)を用いた。表1に,従来の尤度最大化基準とHMMを用いる方法(Baseline),本方法(PLRM)の結果を示
す。本方法を用いることにより,従来法と比べて,誤り率を70%以上削減することができた。
表1.単語認識率
Baseline PLRM
88.3% 96.8%

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

?O.Birkenes,T.Matsui and K.Tanabe,"Probabilistic Isolated-Word speech Recognition via
Maximum Penalized Logistic Regression Likelihood,"日本音響学会研究発表会講演論文集,
1-P-22,秋季2005。
-松井知子,田邉國士,ビルケネス・オイスティン,"音声認識装置及び音声認識方法,"特願
2005-305014,2005。

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

 

研究参加者一覧

氏名

所属機関

Oystein Birkenas

ノルウェー工科自然科学大学

Tor Andre Myrvoll

ノルウェー工科自然科学大学