コラム

音声研究とビッグデータの統計的機械学習

松井 知子(モデリング研究系)

 2012年3月末にオバマ政権がビッグデータの利活用を目的とした研究開発イニシアティブについて発表した時、ちょうど京都でInternational Workshop on Statistical Machine Learning for Speech Processing(IWSML)のワークショップを主催していた。このワークショップの目的は、音声などのメディア系のビッグデータを処理する技術について、統計的機械学習の理論と応用の研究者が一堂に集い、技術の方向性や問題点についてディスカッションすることであった。IWSML開催はまさにタイムリーであり、参加者たちは一様に、上記のオバマ政権の発表に勢いを得たことを覚えている。

 音声データ処理のうち、特に音声認識では1980年代より統計的機械学習の手法が基本となっている。音声認識で扱われるデータはもともと大量であり、例えば音声モデルのパラメータ推定には、数百時間の音声データが一般に使用される。また実際の音声データは発声のゆらぎ、背景雑音、回線による歪みや欠損を含み、質が不均一である。ビッグデータの利活用では量の問題に加えて、質の不均一性の問題がよく取り上げられるが、音声研究では従来、両問題に正面から取り組んできており、その研究成果には一般のビッグデータの利活用にも役立つものが多いことが期待できる。

 IWSMLで着目した統計的機械学習の研究テーマの一つはdeep learningであった。Deep learningは、特に1980年代後半から1990年代にかけて盛んに研究されたニューラルネットワーク(neural network;NN)の延長にある研究テーマとして捉えることができる。2000年代後半からトロント大学のGeoffrey Hinton博士のグループが先導する形で、deep NN(DNN)によるdeep learningが再び注目されている。ちなみにHinton博士は最初のNN研究の隆盛を促した研究者の一人でもある。多段階層化されたネットワーク構造を持ち、各ノードの出力がシグモイド関数などで表されるDNNは、サポートベクターマシンなどのカーネルマシンと同様に無限個のモデルを内包しており、非常に表現力が高い。1980・1990年代は計算機性能が低く、そもそもNNのパラメータ推定に必要な計算に難があった。現在、比較的入手しやすい計算高速化のための部品、graphics processing unit(GPU)も登場し、DNNのパラメータ推定も何とかできるようになってきた。計算機の性能向上の追い風に乗って、DNNの表現ポテンシャルの高さが音声認識研究でも威力をふるい出している。音声認識では1980年代後半よりhidden Markov model(HMM)の確率モデルが一般に用いられてきた。当初はHMM vs.NNの認識性能の競争が見られたが、NNは上述の計算の問題が深刻だったため、HMMが勝ち残っていった。そして今、HMMによる音声認識性能が飽和する中、いろいろな実験条件でDNNを適用することにより認識誤りが数十パーセント減少することが報告されはじめている。DNNは音声の他、言語や画像データ処理などにおいても従来法を越える性能を示している。

 DNNは収束性などの理論的な解析が難しいことが知られている。DNNについては、質が不均一なビッグデータに対して高性能を示す理由を含め、より深い理論的解析が待たれている。今後も音声研究から発信される諸知見に目を配りつつ、統計的機械学習の応用研究を幅広く展開していきたい。

IWSMLの“Dinner and Discussion”で熱心に議論する統計的機械学習の理論と応用の研究者たち

ページトップへ