平成302018)年度 共同利用登録実施報告書

 

課題番号

30−共研−12

分野分類

統計数理研究所内分野分類

j

主要研究分野分類

1

研究課題名

深層ニューラルネットワークのCurse of dimensionalityの回避

フリガナ

代表者氏名

ナカダ リュウメイ

中田 竜明

ローマ字

Nakada Ryumei

所属機関

東京大学経済学研究科

所属部局

統計学コース

職  名

大学院生 修士課程

 

 

研究目的と成果の概要

【研究目的概要】
ノンパラメトリック回帰の文脈で真の関数の推定を考える。
既存研究では深層ニューラルネットワークが適切な非零パラメータ数のもとでMinimax Optimal Rate(up to log(n) order)を達成することが知られている。(Schmidt-Hieber,2017).
一方、このレートはサンプル数の指数部分が入力次元の関数であるため、画像認識などの応用で真の関数の入力次元が巨大である場合に理論上の収束レートが非常に遅くなる問題が存在し、次元の呪いと呼ばれる。
実際には入力が高次元なデータに対しても深層ニューラルネットワークが非常に良く関数を推定することが知られている。(Collobert & Weston, 2008; Fakoor et al., 2013; He et al.,2016).
さらに加えて高次元データが本質的に低次元に分布している現象が観測されている。(Tenenbaum,de Silva,&Langford,2000)
本研究では分布が本質的に低次元な場合に着目することで、主に深層ニューラルネットワークの改善された収束レートの導出を行った。
【研究成果概要】
実数値を出力する真の関数f_0がb-Hoder空間に属すると仮定する。
また入力の次元をDとする。既存結果は任意のf_0に対しレイヤー数が一定数以上であれば、サンプル数nに対して、ニュラルネットワークによる推定量とのL^2誤差がO(n^(-2b/(2b+D))) (up to log(n) order)であることを示している。
(1) データの低次元性を考慮した収束レートの導出
Minkowski次元を導入して入力データの低次元性を捉える。 入力データを生成する分布をP、そのサポートのUpper Minkowski次元をd*とする。 分布にいくらかの緩い仮定を課すことで、レイヤー数が一定数以上であれば任意のf_0と任意のd > d*に対しL^2(P)汎化誤差がO(n^(-2b/(2b+d))) (up to log(n) order)であることを示した。
さらに、このレートを達成するようなレイヤー数・非零パラメータ数を提示した。
また、Petersen & Voigtlaender, 2018で示された近似レートに対応する、入力データが低次元の場合の近似レートも導出した。
(2) Minimax rateの下界の提示
(1)で示したように、深層ニューラルネットワークのL^2(P)汎化誤差は「入力の次元がdの関数に対するMinimax optimal rate」をほぼ達成することが分かった。(2)ではすべての推定量に対して,L^2(P)汎化誤差の「入力データが本質的に低次元である場合のMinimaxレート」が、b-Holderクラスに対してはO(n^(-2b/(2b+d)))であることを示した。 すなわち、深層ニューラルネットワークが本質的に低次元の入力データに対してほぼMinimax Optimal Rateを達成することを示した。
(3) シミュレーション
入力データの次元が表面上の次元よりも低い場合の深層ニューラルネットワークのパフォーマンスをシミュレーションにより調べた。
表面上の次元をD=10、実際の次元をd=2, 4, 6, 8と変化させた場合、より小さいdについて、サンプル数に対するL^2(P)誤差が有意に小さくなることが分かった。
これらの成果により、実データに対して深層ニューラルネットワークが良く働く理論的な根拠を提示した。