数理から


概統計モデル

統計モデルM が仮定されたとき, M の管状近傍を                          

                               N(ε, M) = { p :  KL(p, M) ≦ ε2}

と定める.ここで KLはKullback-Leibler (KL) ダイバージェンスを表し,KL(p, M) は密度関数 p から 統計モデル M へ射影を表す.

                                    

この N(ε, M) を概統計モデルと呼ぶ.定義から,ε = 0 のとき,N(ε, M)は M に他ならない,すなわち,統計的パラメトリック漸近論の基本設定は,今の文脈で云うと ε = 0 であって,データ分布の密度関数はM の中にある. 概統計モデルの考えでは, ε = O(1) とすれば, データ分布 pデータ数 n が無限になってもデータ分布と統計モデルM への乖離が存在することを意味する.このときは統計モデルM の情報を無視してノンパラメトリックな方法を考えることになる.ε 対してこの両極端な設定の中間こそ,実際のデータとモデルの関係ではなかろうか!と考えた. この視点から, ε データ数 n が増えるにつれて 0 になると仮定しよう. 例えば, ε = O(1/√n) を考える. このとき,最尤推定の漸近最適性はもはや成立しない. このような統計モデルのアイディアが「方法論では」において, 局所尤度解析 と 観測バイアスの感度分析アプローチについての適用を紹介する.

観測バイアスの設定のための簡単なフレームワークを紹介する.統計モデル M = {p(x,θ) : θΘ}に対して,密度関数全体の空間としての接空間は

                                                 Tθ = { u(x,θ) : E(u(x,θ)) = 0, var(u(x,θ)) < ∞ }

と表現する.ここで期待値 E と 分散 var は,p(x,θ)に関して取る. このとき,Tθの単位球体 Ξ によって

                                                 N(ε, M) = { q(x,θ) = p(x,θ)exp{εu(x,θ)ε2/2} : u Ξ, θΘ}

と近似できる. ここで,近似の意味は KL(q(,θ), p(,θ)) = ε2+ O(ε3)の成立を表す.この指数バンドル(M,Ξ) →N(ε, M) を使って観測バイアスの可能な全ての形を表して感度分析を進めている (→方法論)


U-情報幾何

  Fisherの最尤法は指数モデルにおいて,最小十分性,不偏性の議論から正当化されている.その極めて優れた点を示す数理は, 統計量 t (x) のキュムラント母関数

                                   ψ(θ)  =  log(E[exp{θ Tt (x)}])

の中に凝縮される.このキュムラント母関数を定義する exp 関数と log 関数の役割についてより広い観点から考察したい. キュムラント母関数 ψ(θ) の凸性が十分統計量 t (x) からθの最尤推定量に対してLegendre変換を導く. このように指数モデルの密度形が

                                   p(x ;θ) = exp{θ Tt (x)−ψ(θ)}

と表されるとき,このモデルにおいてFisherの最尤法は優雅な最適性を享受する. 最尤推定量は最小十分統計量であり,パラメータ η = ∇ψ(θ) に対して最小分散不偏推定量である.このように最尤法は指数型分布族のモデルの上では共役凸幾何によって特徴付けられる.

歴史的には少し遅れて KL ダイバージェンスの最小化と最尤法の密接な関係が発見された.指数モデルの上ではキュムラント母関数 ψ(θ) の凸性から,p(・;θ) から p(;θ*) へのKLダイバージェンスは,

                                   ψ(θ) +ψ*(η*) − θ Tη

で表される.ここで,η* = ∇ψ(θ*),  ψ*(η*) = supθ{θ Tη*−ψ(θ)}.  この前提となる指数関数expの代わりに凸関数 U をとったら何が起こるか? 最尤法を超えたどんな方法が考えうるか? どんなダイバージェンス最小化と関連が生じるのか?  

こんな動機から,U-関数が連想するU-ポテンシャル関数が定めた凸解析を調べて見よう.その凸共役なポテンシャル関数を合わせてU-ダイバージェンスが構成され,その双対な線形接続に関して平坦な多様体をU-モデルと呼ぶ.U-ダイバージェンスのU-モデル上への射影がピタゴラス定理が成立することが主張される.実際,ここで形式的な議論をしよう.Uの導関数U' は正値関数と仮定する.このとき,ある線形関数空間 L の上に定義されたU-ポテンシャルは

                             ψU ( f )  = Uf (x)) dx

定義する.その共役凸汎関数は

                                 ψU*()  = sup f {p(x) f (xdxψU ( f )}

となる.従ってU-ダイバージェンスは

                                 DU (g ,  f )  =  ψU ( f ) +  ψU*( p )  − p(x) f (xdx

と生成される. ここで, p  = u(g),ただし, u = U '.   結局, 元の積分形で書けば,[U( f (x))U(g(x)) p(x){f (x)g(x)}]dx となるので, 線形関数空間 L ではなく, 正値関数の空間U' (L) で定義されたU-ダイバージェンスは DU

                                 DU ( p,  q )  =  [U(ξ(q(x)))U(ξ( p(x))) p(x){ξ(q(x)))ξ( p(x))}]dx

ここで ξ = u−1.    仮定より,空間U' (L) は有限測度の密度関数の集合と見れる. さらに空間U' (L)の中で確率密度関数に制限すると, これらはU = expであれば, ξ = log より DU  = KL になるので従来の情報幾何に帰着され,U-ポテンシャル=キュムラント母関数,U-ダイバージェンス = KLダイバージェンス, U-モデル = 指数モデルとなる[r20], [r21]. このように f (x) = θ Tt(x) とすれば,確率制約によってU-ポテンシャル関数ψU ( f ) は,θ の関数となり,キュムラント母関数 ψ(θ) に他ならない.

   ここではU-モデルは確率制約を課すと,

                                MU  =   {  pU(x ;θ) = u(θ Tt (x)−ψU (θ))  :  θ  Θ }

で与えられる. ここでψU (θ) は, pU (x ;θ) が確率密度関数になるための規格化因数とする.  このとき,かってな p から U-モデル MU

への射影を q* とする.すなわち,

                          q* = argmin { DU ( p,  q ) : q MU } 

は,任意の q MU  に対して   ピタゴラス定理: DU ( p,  q ) = DU ( p,  q* ) + DU ( q*,  q )    

                                                              

が成立する.

このモデルのもとで,観測値 x1,..., xn が得られたとき,U-ダイバージェンスの経験量は, 定数項を除いて

                         DU ( pemp,  pU (;θ))  = − n −1{θ T t − κ(θ)}

となる. ここで t = n −1i t (xi ),  κ(θ) = U(θ Tt (x)−ψU (θ))dx + ψU (θ) とする. U-ダイバージェンス推定量は, 統計量 t だけの関数になる. このように,指数モデルと最尤推定の議論は,U-モデルとU-ダイバージェンス推定量に素直に拡張できる.このU-情報幾何は自然に統計的パタン認識の問題でU-ブーストアルゴリズムへと展開されていく.

   U-ダイバージェンス推定量の別の応用として,ロバストネスの観点から 主成分分析, 独立成分分析, ガウシアン・ミクスチュアーについて考察している. これは, 上の素直な拡張とは別の道筋である. つまり, 通常の統計モデルの密度関数 p(x,θ) を仮定のもとで,U-ダイバージェンス推定量を適用するとどうなるか? 統計モデルと最尤法の相性の良さははじめに確認した通りだ. 最尤推定の推定関数は

                         i s(xi ,θ)                                               (  ここで    s(x,θ) = (∂/θ) log p(x,θ) )

で与えられる. これに対してU-ダイバージェンス推定量の推定関数は,

                         i {w(xi ,θ)s(xi ,θ) − b(θ)}            (  ここで    b(θ)  =w(x,θ) s(x,θ) p(x,θ)dx

で与えられる.本質的にはスコアー関数 s(x,θ) に 重み関数 w(x,θ) を与えたものである. ここで

                          w(x,θ) =  p(x,θ)ξ '(p(x,θ)) .

このように,ξ = u−1 より U = exp ならば w(x,θ) = 1, b(θ) = 0 となり最尤推定になる. 特にベータ・ダイバージェンス

                        Dβ ( p,  q )  =  [(1+β)−1({q(x)}1+β{p(x)}1+β) β−1p(x)({q(x)}β{p(x)}β)]dx

を利用しよう. β→ 0 なら  Dβ → KL となることに注意.以下の議論では β0 と仮定しよう. このとき 重み関数 w(x,θ) は

                        w(x,θ) =  {p(x,θ)}β

となることから興味深い解釈が与えることができる. つまり,ベータ・ダイバージェンス推定量は観測値の xi尤度の貢献に比例して重みが与えられることになる. 特に xi が外れ値であれば重み w(xi ,θはほとんど 0 になることが想定される. この意味で自動的にロバストネスが得られている. 各々のモデルの設定に関して影響関数に関する B-ロバストネスの詳細な議論もされている. 詳しくは,方法論を参照.