響き合う人とデータ―統数研プロジェクト紹介

第35回「従属性のあるデータへの不確実性の定量化」

ベイズ統計の適用範囲拡大を目指し新たな計算手法の開発へ

時系列データのような従属性のあるデータの解析では、近似計算が行われることが多い。しかし、結果にはさまざまな解釈が生まれ、扱いが難しくなるデメリットがある。そこで、どのような指標で定量化しても解釈が一通りに統一されるベイズ統計の特徴を生かし、従属性データに適用することで、信頼性を向上させようという研究が進んでいる。機械学習を取り入れつつ、ベイズ計算の新手法の確立に挑むプロジェクトを紹介する。

ベイズ統計による時系列データ解析「二重の難題」への挑戦

▲鎌谷研吾教授

今回紹介するプロジェクトのテーマは「従属性のあるデータへの不確実性の定量化」だ。「ここでいう『不確実性の定量化』とはすなわち、ベイズ統計学のことです」。統計数理研究所モデリング研究系複雑構造モデリンググループの鎌谷研吾教授は、そう説明する。

統計学とはまさに不確実な事象を定量化することであり、その定量化の意味を解釈することだ。さまざまな統計手法がある中で、ベイズ統計を使うメリットは何か。「ベイズ統計の特徴は、どのような指標で定量化しても解釈が一通りしかないこと。定量化の意味が一つに決まるという意味では理想的な手法です」(鎌谷)。

ただ、ベイズ統計は、計算量が膨大になるというデメリットも内包している。この問題に対処するため、一般的となっているベイズ計算法(ベイズ統計学での不確実性の計算法)が「マルコフ連鎖モンテカルロ法(MCMC)」だ。MCMCはランダムなデータを発生させるアルゴリズムで、ベイズ統計で計算が困難な場合に、乱数を無作為に抽出して概算する手法だ。

「近年のMCMCは機械学習と結びついて、大雑把な近似をして計算を簡単にするアプローチの研究が盛んですが、近似をすれば、統一的な解釈というベイズ統計の良さは薄まってしまう。近似をしなくてもいい計算手法を開発するのが私たちの目標です」と鎌谷は話す。

一方、「従属性のあるデータ」とは、主に時系列データなどを指す。例えば日経平均株価のような金融時系列データが典型だ。「こうした従属性のあるデータは、たとえシンプルなモデルでも特徴量、いわゆる『尤度』を簡単には計算できません。独立したデータなら前のデータを無視して計算できますが、時系列ということはデータがつながっているわけですから、それを切り離すのがとても難しい。理論的にも計算機的にも難易度が高いのです」(鎌谷)。

機械学習を取り入れながらベイズ計算法を発展させ、従属性のあるデータに適用して統一的な定量化の解釈を可能にすることが、このプロジェクトの狙いなのである。もともと計算が困難な性質を有するベイズ統計を用いて、扱いの難しい時系列データを解析しようという、二重の難題への挑戦だ。

従属性データを扱う諸分野にインフラを提供する

このプロジェクトは、科学技術振興機構(JST)の推進するチーム型研究プログラム「CREST」の2021年度採択課題「大規模時空間従属性データ科学へ向けた先端的確率統計学の新展開」(研究代表者:吉田朋広東京大学大学院数理科学研究科教授)の取り組みだ。

時空間従属データに関わる多様な科学分野や社会事象に応用できる汎用的方法を創出し、インフラとして提供することで、課題解決へ貢献することが、5年半に及ぶCREST研究における達成目標となっている。

▲増田弘毅教授(東京大学)

ベイズ統計における計算法を専門とする鎌谷と現在、共同研究を進めているのは、東京大学大学院数理科学研究科の増田弘毅教授と、東京大学大学院総合文化研究科附属先進科学研究機構の仲北祥悟特任助教やイギリス、ドイツの研究者らだ。

増田教授は確率過程モデル、特にレヴィ過程におけるジャンプの大家。「増田さんとは以前から共同研究をしてきました。標準的なブラウン運動ではなく、ジャンプを表現するモデルをぜひ使いたいと考え、今回もテームに入っていただきました」(鎌谷)。仲北助教は、鎌谷が大阪大学に所属していた頃の上司の教え子。「機械学習と時系列データの両方に詳しい仲北さんのような人は珍しい。ぜひにと声をかけました」(鎌谷)。

▲仲北祥悟特任助教(東京大学)

鎌谷が計算手法を考案し、増田教授がその理論的正当性を確立する。仲北助教は機械学習的手法の展開や理論のアイデアを出す。そんな体制で研究を進めているという。

バイアスのない、すなわち適当な条件下で、計算で出力される値の期待値がちょうど計算したい対象と一致するベイズ計算の手法における今のトレンドは、「非対称性」の手法だ。「法則の対称性とは、ある経時的遷移の仕方と、その逆の遷移の仕方が同じ割合で起こることを言います。従来の手法の多くは、対称性の制約の中で発展してきたものです。しかし最近では、非対称性を含む手法でも実装できることが分かってきました(図1,2)。うまく非対称を作ることができれば、効率よく安定的な状態にたどり着ける。われわれも非対称性に着目した研究を進めています」(鎌谷)。

図1:対称性、非対称性をもつマルコフ連鎖モンテカルロ法の比較。左から2つの列は対称、一番右の列は非対称なマルコフ連鎖モンテカルロ法でベイズ計算を行った例。移動距離が大きいほどよい。対称なアルゴリズムは行きつ戻りつ進むので散漫であるが、非対称な方法は制約がないので移動距離が大きい。出典Kengo Kamatani, and Xiaolin Song. Non-reversible guided Metropolis kernel. Journal of Applied Probability,60 (3), 2023, pp. 955 - 981。 図2:区分確定的マルコフ過程。ベイズ計算のコミュニティでトレンドとなっている非対称なマルコフ過程。左上・区分確定的マルコフ過程の三次元のジグザグサンプラー、右上・区分確定的マルコフ過程の三次元の跳ね返り粒子サンプラー、下・鎌谷らが2020年に開発した区分確定的マルコフ過程の二次元のブーメランサンプラー。下図はS. Grazzi氏(ウォーリック大)提供。

増田教授が鎌谷と共同研究を始めたのは、5年ほど前のことだ。「正規分布ではなく非正規ノイズ過程で駆動されるランダムなダイナミクスの統計に興味を持っています。現世に実在するデータでは、往々にして正規性は棄却されるわけですが(図3)、非正規分布として扱えば推定の精度が上がるし、正規分布に基づく統計モデルでは抽出できない情報を搾取できるからです」と増田教授は振り返る。

図3:非正規なモデル。鎌谷らの現在のキーワードの一つは「非正規性」。この図は、実データはしばしば非正規であることを示す例(2014年4月1日から2014年4月30日までのIBM株の1分ログリターンのヒストグラム)。データは強い非正規性を有している。出典A. Jasra, K.Kamatani, and H. Masuda. Bayesian inference for stable Levy driven stochastic differential equations with high-frequency data, Scandinavian journal of Statistics,46 (2), 2019, pp. 545 - 574。

そんなとき、MCMCの漸近挙動(データ数が増えていくときのMCMCの性質)に関する鎌谷の理論に刺激を受けたことが、共同研究のきっかけだった。シンガポール国立大学のJasra准教授(現サウジアラビア?アブドラ王立科学技術大学教授)を加えた3人は、その成果を2019年に共同論文として発表した。「今回のCRESTプロジェクトで、私のグループでは複数の時系列データの相互作用を考慮した統計手法の開発を手がけていますが、そこにも非ガウスノイズとベイズ統計で切り込んでいければ」(増田教授)。

一方で、機械学習のコミュニティーでは比較的よく研究されている、近似を行うアプローチでベイズ計算を研究しているという仲北助教は、「近似がうまく働くためには、ユーザーの問題設定に制約を強いることになります。データ間に従属性があるなど、複雑な構造の場合にはそうした仮定を満たしづらく、近似がうまく働かない状況が生じます」と指摘する。

「鎌谷さんのアイディアを組み入れることで、ユーザーがより広範な問題設定をしても、現実的に厳密な計算ができるような手法を開発できるのではないかと考えました。それが私にとって、このチームに参画する重要なモチベーションになっています。設定の妥当さと計算の簡単さのバランスを追究していきたいと思っています」(仲北助教)。

統計の根本はベイズにあり。計算手法の進化にかかる期待

CRESTの研究は、理論統計学、ベイズ統計学、機械学習、漸近分布理論、従属系における情報量規準およびスパース推定論など、これまでの研究を発展させ、時空間従属性解析の新しい地平を開くものだ。アウトカムの一つとして、確率過程に対する統計推測およびシミュレーションのためのRパッケージ「YUIMA」の開発も手がけており、鎌谷のチームではここにベイズ関数群を加える。

ベイズ統計のアプローチを採用することで、機械学習のブラックボックス問題や、いわゆる「P値の過信」といった問題の解決にもつながる可能性がある。例えば、2016年アメリカ統計協会は統計的仮説検定やP値(設定した仮説が正しいかを判定する基準となる値)について声明を出し、誤用への注意を喚起した。どんなデータでも、どんな解析をしても、P値が0.05を下回りさえすればよしとする風潮に警鐘を鳴らした形だ。

「難しい問題に対しては、どうしても計算が遅くなる。だから近似に頼りすぎてブラックボックス化が進むのです。ベイズ統計は正直な解釈のまま計算していくので、ブラックボックスがない。出てくる数字は頭の中で直感的に浮かぶ確率とほぼ一致しています。機械学習を使っても、きちんと計算できる裾野を広げていきたい」と鎌谷は話す。

増田教授も「われわれが立脚している確率過程の統計学は、すでに半世紀以上にわたり練り上げられた歴史があります。微分方程式で記述される物理現象のモデルを機械学習で解析するといった最近の手法とは、統計的な取り扱いが根本的に違う。確率過程の統計学を土台にしつつ、機械学習的な要素を取り入れ、ベイズ計算の裾野を広げるというのは、かなりユニークなプロジェクトだと言えるでしょう」と補足する。

日本ではベイズ統計の経済・金融分野での研究が盛んだが、鎌谷のようにベイズ計算を専門とする研究者は少ないという。手法を発展させるには、研究人材を確保する必要がある。そう考えた鎌谷は、2023年4月から統数研でベイズ計算法をテーマとするセミナーを開始した。

「不確実性を定量化するのに、ベイズ計算では必ず『確率』を使います。一般の人から見たら、統計で確率を使うのは当たり前と思うでしょうが、じつは他の統計手法ではそうでもなく、さまざまな解釈が生まれてしまう。定量化にはすべて統一的に確率を使うベイズ計算は、非常にシンプルなので、最終的にすべての統計はベイズに行き着くしかないと思っています」と鎌谷の口調に熱がこもる。定量化の根本はベイズにあり。古典的で本来的なベイズ統計は、計算手法の進化次第で大きな可能性を秘めている。

(広報室)


ページトップへ