響き合う人とデータ―統数研プロジェクト紹介

第31回「データ科学と天文学の境界領域の進展を目指して」

天文学のビッグデータ解析に統計手法を応用

天文学や宇宙物理学の分野では、観測機器の進化とともにデータ量が爆発的に増えつつある。今や宇宙の解明には、ビッグデータを扱うデータサイエンスの知見が不可欠となった。統計学の手法を天文学に応用して研究を進化させることを目指し、現在、国立天文台から二人の若手研究者が統計数理研究所統計思考院へ出向している。

銀河の“ひしゃげ”を推定しダークマターの宇宙地図を描く

▲白崎正人助教 ▲服部公平助教

2020年秋、国立天文台の新進気鋭の二人の若手研究者、白崎正人助教と服部公平助教が統計数理研究所統計思考院に兼務で着任した。統計思考院は、データに基づく推論である統計思考力を鍛えるための開かれた「道場」。統計学のシニア教員や異分野の研究者との交流によって、各自の研究テーマに援用できる統計手法のアイデアやヒントを掴む場とすることがねらいだ。

白崎が手掛けているのは、人工知能(AI)を使った深層学習による宇宙の「大規模構造」の解明だ。天文学に深層学習を応用した研究は世界で急速に進んでおり、2015年には10本程度だった論文投稿数が2021年には1000本近くと、6年で100倍になっているという。白崎は以前から統数研の池田思朗教授らとこのテーマで共同研究を進めており、その研究成果は『英国王立天文学会誌』の 2021年6月版に掲載された。概要は次のとおりだ。

太陽のように自ら光を発する「恒星」の集まりを「銀河」と呼ぶ。銀河が1000個ほど集まった状態が「銀河団」で、その大きさは銀河の100倍程度。端から端まで、光の速さで進んでも300万年かかる「300万光年」の規模だ。「宇宙の『大規模構造』は、銀河が連なって節状や泡状の構造を作る状態を指します。典型的な大きさは、銀河団の100倍になります」と白崎は説明する(図1)。

図1:私たちの住む「天の川銀河」以外にも、宇宙には無数の銀河がある。観測される銀河の分布には、銀河が局所的に集まってできる「銀河団」、銀河団より大きな「大規模構造」がある。図中の大規模構造のグラフは、銀河の一つひとつの座標をプロットしたもの(青い点)。赤い円で示したフィラメント状の連なりが大規模構造だ。

大規模構造は宇宙誕生後137億年をかけて、重力によって成長してできたとされる。当初はある範囲内に物質の集まりのわずかな濃淡があり、そのうちの高密度領域に物質が引き寄せられて大規模構造を形成していった。

この物質を引き寄せる過程で重要な役割を果たしたのが「ダークマター(暗黒物質)」だ。だが、その正体は未だ解明されていない。「大規模構造の形成に関わるダークマターをなんとか捕まえたい。私が追いかけているのはこの課題です」と白崎は話す。

ダークマターの正体を解明するためには、宇宙のどこにどれくらいのダークマターがあるか調べ、「地図」を作成する必要がある。ダークマターはその性質によって、分布の仕方が変わると理論的に予測されているからだ。

ダークマターの地図を作成するために近年注目されているのが、「重力レンズ効果」と呼ばれる現象を利用する方法だ。ダークマターはその重力によって時空を歪め、レンズのような効果をもたらす。そのせいで、地球からは遠方の銀河の形がひしゃげて見える(図2)。この性質を利用して、銀河の手前にあるダークマターを推測する。

図2:遠方にある銀河は、手前にあるダークマターによって、地球からはひしゃげて見える。この「遠方銀河の弱重力レンズ効果」と呼ばれる性質を利用して、ダークマターの分布を推定する。

白崎のチームが使用したのは、国立天文台がハワイで運用する「すばる望遠鏡」で300晩にわたり撮影、公開されている約1億天体のビッグデータ。データ規模が大きいため、解析には高度な技術が必要になる。

「やっかいなのは、銀河の形は一定ではなく、もともとひしゃげていることです」と白崎は言う。元が完全な球形をした銀河なら、ひしゃげた形から推測したダークマターも明確な分布を描く。しかし、銀河の形が分からないと、推定されたダークマターはノイズが入り、迷彩模様のようにはっきりしない分布になってしまう(図3)。

図3:左図は銀河が完全な球形だった場合で、ひしゃげた形から推測したダークマターも明確な分布を描く。しかし、銀河の元の形が分からないと、推定されたダークマターはノイズが入り、右図のようになってしまう。

この状態から「ノイズだけを取り除きたい」というニーズに対応できるのが、深層学習だ。まずシミュレーションによって大規模構造をいくつも作成する。次に、コンピュータ上に形成された模擬宇宙に、重力レンズ現象をシミュレーションしておく。そうして得られた「ノイズあり疑似データ」と「ノイズなし疑似データ」の組み合わせを3万セットほどAIに学習させ、「ノイズあり」を「ノイズなし」に変換するAIを構築する。「このAIに実際の観測データを適用し、ほぼ期待どおりのノイズ除去性能が達成できました」と白崎は話す(図4)。

図4:深層学習によって構築したAIで、観測データを「ノイズあり」を「ノイズなし」に変換し、ノイズを除去した。

論文の査読段階では何度もフィードバックがあり、その対応に約2年を費やしたものの、そこで得られた知見もあった。「局所的なノイズ除去は得意な半面、大域的になると苦手であるなど、AIの癖が分かってきました。すべてのダークマターに適応させるのは難しいかもしれませんが、他の手法では不可能な場所への適用が増えれば、大規模構造の解明に一歩近づくでしょう」と白崎は期待する。

楽観的に、貪欲に。観測誤差を乗り越えて離散した兄弟星を探せ!

一方、服部の研究対象は、太陽系が属している銀河、すなわち「天の川銀河(銀河系)」の歴史だ。「宇宙全体の歴史を世界史に例えると、私の手掛けている研究は日本史のようなものです」と服部は説明する。

天の川銀河は、恒星が1000億個ほども集まった巨大な円盤状の集合体だ。太陽はその中を秒速240kmで円運動している。円の軌道を1周するのにかかる時間は2億年と聞けば、“日本史”といえどもそのスケールの大きさが伺えよう。

なぜ、天の川銀河はこれほど巨大なのか。「今、最も支持されているのは、小さな銀河が次々にぶつかって一体化し、大きくなったというシナリオです」と服部は言う。天の川銀河の周囲には、大マゼラン銀河や小マゼラン銀河など、子分のような矮小銀河がたくさんある。天の川銀河も当初はこうした小さな銀河だったが、そこに他の銀河がぶつかり巨大化したと考えられる(図5)。その歴史を解明しようというのが、服部の研究テーマだ。

図5:当初は小さな銀河だった「天の川銀河」に他の銀河や星団が次々にぶつかった結果、現在の大きさに成長したと考えられている。

「天の川銀河は私たちの住む銀河なので、他の銀河に比べて圧倒的に情報が入手しやすい。今は天文学史上、革命的といえるほどのビッグデータが得られる時代になっています。天の川銀河は無数にある銀河の一つですから、これを詳細に調べることで、宇宙全体の構造や歴史の解明につなげられるのです」(服部)。

例えば、恒星の化学組成を調べることで、その星が生まれた場所(星雲)の環境が分かる。天の川銀河に属する恒星の化学組成については世界中で大型望遠鏡を駆使した観測が進み、すでに恒星100万個分ほどのデータが集まっている。また、観測用の人工衛星「Gaia」のデータからは恒星の位置と速度が分かる。現在、天の川銀河の1%にあたる恒星10億個分のデータが公開されている。

宇宙の年齢は137億歳といわれる。一方で、現存する恒星の中には100億歳を超すものも多くあり、しかもその化学組成や軌道は誕生時からほぼ変わらない。つまり、現在の恒星を調べれば、その星が生まれた星雲の化学組成や軌道が解明できるわけだ。「いうなれば、星は『記憶力のよい歴史の生き証人』なのです」と服部は話す。

データを解析することで、天の川銀河への衝突によって離散した恒星同士が、元はどの矮小銀河に所属していたかも突き止められる。恒星の軌道形状は、位置と速度から算出する「角運動量」で表すことができ、この角運動量が同じであれば、同じ銀河を母体とする兄弟星だったことになる(図6)。

図6:矮小銀河が天の川銀河に衝突して破壊される様子。別々の位置に離散しても、軌道形状は変わらないため、データを解析することで兄弟星を探し当てることができる。

服部が統数研で奥野彰文助教と共に取り組んでいるのは、Gaiaのビッグデータを使ったクラスタリング解析だ。観測データには必ず誤差があることから、角運動量の正しい推定は難しく、そのままではうまくグルーピングできない。服部らの開発した手法は、誤差があっても、データの構造を利用して兄弟星のグループを見つけることができるものだ(図7)。

図7:服部と奥野が開発した、Gaiaのビッグデータを使ったクラスタリング解析の手法。誤差があっても角運動量を正しく推定し、グルーピングを可能にした。

こうした手法は、必ずしもクラスターがあることを前提とせず、「もしクラスターがあるとしたら、どこにあるか」という問いの立て方をすることから「楽観的なクラスタリング」と呼ばれる。服部は「膨大なデータをどう扱えばいいか分からないが、とにかくグループを探したい、という天文学のモチベーションに合った方法」だと感じているという。服部と奥野は、この新たな手法を「Greedy Optimistic Clustering(貪欲楽観クラスタリング)」と名付けた。

天文学と統計学のマッチングで宇宙の解明は新たな展開へ

白崎と服部が着任して感じたのは、「統数研は自然科学の分野でも、もっと存在感があっていいはず」ということだ。

「統数研ではクラシカルな統計手法の応用は進んでいる一方、AIに関しては数学的な理論の構築が中心で、応用の広がりはこれからと感じる。私たち天文学者が気づいていない手法がまだたくさんあると思うので、天文学に応用できるものを出向期間中に見つけたい」と白崎は言う。

例えば、大規模構造の研究ではよく「乱数」の壁にぶち当たる。観測データから宇宙を小さなグリッドで区切ったとき、その中にある銀河の数は規則性のない乱数だ。そこで、乱数の現れる頻度を統計的に推定する「カーネル密度推定」などが応用できないかと考えている。「サイコロを一度に100個振ったときの値の頻度分布を求めるような高次元のデータの頻度推定などに強い方は、ぜひご連絡いただきたい」と白崎は呼びかける。

統計思考院は、自由な雰囲気の中で創発が生まれることを期待し、広いフロアにリラックスできるスペースが用意されている。服部と奥野の共同研究も、たまたま通りかかった奥野が服部の話に興味を示したことがきっかけで始まった。しかし、コロナ禍の影響で在宅勤務の研究者が多く、以前ほど偶発的な出会いの機会は多くないのが実情だ。

「統計手法の引き出しが増えれば、Gaiaのビッグデータを使ってこんなことができるのでは、というアイデアも生まれやすくなるはず」と服部は期待する。「例えば、『異常値推定』や『極値統計』などの手法を使えば、観測された膨大な天体の中から、レアな性質を持つ天体を抽出することができるのではないか。また、ベイズ統計で尤度を近似でも高速で計算する手法も知りたい」(服部)。

こうした天文学の問題に関連のありそうな知見を持つ研究者との出会いを、二人は待ち望んでいるところだ。

(広報室)

新型コロナウイルス感染拡大防止のため、本インタビューはオンラインで行われました。


ページトップへ