響き合う人とデータ―統数研プロジェクト紹介

第10回「広域撮像探査観測のビッグデータ分析による統計計算宇宙物理学」

統計手法で突発天体を探し 出し、宇宙の解明を前進へ

突然出現し、短期間に急激な光度変化を示す突発天体。超新星などの突発天体を発見し、研究することで、宇宙物理学は大きく前進すると言われている。東京大学などと連携したプロジェクトで、統数研チームは突発天体をビッグデータや動画から統計学的手法によって抽出し、宇宙物理学の進展に貢献している。

天文学と統計学の融合による「統計計算宇宙物理学」の創出

ICTやセンサ技術の発達によってもたらされるようになったビッグデータ。その活用により、さまざまな分野でイノベーションが期待されている。天文学や宇宙物理学もその一つだ。

統計数理研究所の池田思朗教授、伊庭幸人教授、小山慎介准教授、森井幹雄特任助教は現在、科学技術振興機構(JST)の戦略的創造研究推進事業(CREST)のプロジェクトに参加し、宇宙の解明に向けた統計学的手法の開発を担っている。今回は池田と森井に取材を行った。

CRESTのプロジェクトは、東京大学大学院理学系研究科およびカブリ数物連携宇宙研究機構(KavliIPMU)の吉田直紀教授を研究代表者とする「広域撮像探査観測のビッグデータ分析による統計計算宇宙物理学」で、2014年度に採択された。Kavli IPMUと統数研のほか、筑波大学計算科学研究センター、日本電信電話(NTT)コミュニケーション科学基礎研究所が参加している。

内容は、ハワイのマウナケア山頂にある地上大型望遠鏡「すばる」で取得される膨大な画像データを機械学習と統計数理、さらには大規模コンピュータ・シミュレーションを駆使して解析し、宇宙の理解を深め、その謎にせまろうというものである。すばるで取得された画像データは公開されることが決まっているが、それに加え本プロジェクトで得られた知見や技術、データも公開され、社会へ還元される予定だ。

さらに、このプロジェクトは、宇宙探査によるビッグデータと情報統計学を融合させた新しい学問領域として、「統計計算宇宙物理学」を創出することを目標にしている。2016年1月にKavli IPMUと統数研は、研究協力に関する協定も締結した。

超新星の遠ざかる速度から宇宙の膨張スピードを算出する

すばる望遠鏡に新たに搭載した超広視野カメラ「Hyper Suprime-Cam(HSC)」で進められる戦略枠観測プログラム( HSC-SSP)では、300夜分、25兆ピクセルに及ぶビッグデータが得られる予定である。CRESTのプロジェクトでは、このデータを用いて、宇宙の謎に迫ろうとしている(図1、2)。

図1:ハワイのマウナケア山頂にあるすばる望遠鏡の外観。図2:すばる望遠鏡本体の前で。CRESTのチームのメンバーとともに。

HSCは、広い視野を持ち、従来の望遠鏡に比べて遠方の天体を写すことができる。「このカメラで同じ領域を何度も撮影すると、前回の撮影時にはなかったものが突然現れることがあります。こうした天体の中には超新星も含まれていて、一晩で超新星が100個ほども見つかる可能性もあります。こんなことは、これまでの観測ではあり得ませんでした」と池田は説明する。

超新星は、いくつかのタイプに分かれる。このうちの「Ⅰa 型超新星」は、理論的にどれも同じ明るさであることから、距離を計測する指標として利用できる。すなわち、見た目で明るいほど地球からの距離は近く、暗いほど遠い。

距離を特定したうえで、スペクトル(光の波長)を解析すれば、その星が遠ざかっていく速度を割り出すことが可能になる。これによって、宇宙の膨張するスピードが高精度に計算できるようになり、宇宙の理解が進むはずだ。

大量の超新星候補から本物を選び出す

こうした研究を進めるためには、膨大な情報量を持つHSCの画像データの中から、“本物の超新星”を見つけ出すことが大前提となる。

池田によれば、見分けのつきにくい“ニセモノ”は、本物の約1000倍の数に上るという。一晩に10 個の超新星があるとすると、1万個ほどのニセモノの中から探さなければならないのだ。

従来の観測ではそれほど大量の画像データを得られなかったため、本物とニセモノの判別は人の目で行うことができた。しかし、毎晩1万個以上もの物体が写るHSCの画像では、そのようなことは不可能。コンピュータを使って本物の超新星を見つける他に手段はない。

そこで、池田と森井はNTTチームと協力し、機械学習によって超新星を判定するプログラムを開発した。使ったのは、ランダムな推測より少し良い推測をする学習機械「弱学習機械」を組み合わせて、強い学習機械を作る「ブースティング」と呼ばれる手法の一種だ。ここで用いた「AUCブースティング」は小森理客員准教授が、統数研に在籍していた当時に江口真透教授と共に開発したものだ。

まず、専門家が本物と判定した突発天体を教師データとしてマシンをトレーニング。次に、本物のサンプルを増やすため、人工天体を画像に埋め込んだ教師データを作成し、トレーニングを重ねた。そして、ハワイの天文台にあるPC 内のデータプロセスパイプラインに、3台の機械学習のマシンをインストールしておき、リアルタイムに判定を行った。

その結果、40万6121個の対象物の中から10個の突発天体を選出することに成功(図3)。「先行研究と互角の精度を確保しながら、観測したその日のうちに結果を出すという、人の目ではありえない早さでの判定を達成しました」と森井はいう。

図3:機械学習の手法を用いて選びだした超新星の候補。40万個を超える物体の中から、10個の超新星を選出した。森井幹雄特任助教

超高視野カメラの動画から突発現象だけを抜き出す

統数研チームがCRESTのプロジェクトの中で行った別の研究の成果として、東京大学附属天文学教育研究センターとの共同研究についても聞いた。

同センターが運用する木曽観測所には、口径105cmシュミット望遠鏡がある。現在、同センターは、この望遠鏡に搭載する超広視野高速カメラ「Tomo-e Gozen(トモエゴゼン)」の開発を進めている。計画では、シュミット望遠鏡の直径9 度の視野を84 台の CMOSイメージセンサで覆い、1秒間に2枚の画像を撮影できる。

その特長を森井は次のように説明する。「トモエゴゼンは19等級までの暗い天体や、時間変動の速い現象も捉えられます。例えば、超新星爆発や高速電波バースト、重力波を出す天体など、短時間にピカッと光る現象です。従来の観測装置では、こうしたものを映像として写すことはできませんでした」。システムが完成すれば、高速で移動する物体の観測や、突発天体現象を発見するために宇宙空間を広く探査するのに威力を発揮する。

完成予定の2018年に先立ち、2015年11月には、8台のCMOSセンサを有する「トモエゴゼン試験機」が完成。同センターはそれ以後、試験観測を続けている。得られた観測データの処理方法の開発に関して、統数研チームも協力している。

監視カメラ映像のデモ動画にヒントを得て応用

すべてのCMOSセンサーが搭載され、高速で撮像をすれば、トモエゴゼンの出力する観測データは、1晩で30テラバイトに及ぶ。そのため、膨大なデータの中から突発天体を効率的に見つけ出すこと、ストレージへの負荷を低減するためにデータを圧縮すること、の二つが課題となる。

池田と森井が目をつけたのは、トモエゴゼンが0.5秒間隔という高頻度で撮影する動画の大部分が時間変化しないことだった。「これほど広視野の天文観測データを動画にするのは、トモエゴゼンが世界で初めてです。この動画の解析には、機械学習の手法として開発された『行列分解』が使えます」と、池田は言う。

行列分解とは、元の動画データを「低ランク行列とスパース行列の和」として考える方法だ。短時間で変化する物体はスパース行列として抜き出され、それ以外の定常的な物体は低ランク行列に集約される(図4)。

図4:行列分解の概念図。元データを時間によって変化しない「LowRank行列」と変化する「Sparse行列」に分ける。超新星などの突発天体は、Sparse行列に抽出される。

行列分解はすでに動画解析で使われようとしている。監視カメラ映像から動いている人物だけを抽出する動画は、業界では有名なデモンストレーションである。トモエゴゼンの動画はまさにうってつけだった。行列分解を用いれば、刻々と変化する突発天体と、その他の定常的な天体とを分離できる。

トモエゴゼン試験機のデータをこの方法で処理したところ、予想どおり、突発天体と、背景となる定常的な天体をきれいに分離することができたという(図5)。

「この方法のよいところは、突発天体を効率よく抽出できるだけでなく、低ランク行列にすることで、それ以外のデータが10分の1に圧縮されることです」と、森井は説明する。ハードディスクの負荷を減らすことができるわけだ(図6)。

図5:実際にトモエゴゼンが撮影した元画像をLow Rank 行列とSparse 行列に分解し、Sparse 動画から突発現象だけを抜き出した結果。図6:データ圧縮の概念図。全体としてデータ量を10分の1に圧縮できた。

統計手法が天文学や宇宙物理学に新たな発見をもたらすことを期待

すばる望遠鏡やトモエゴゼンの登場が象徴するように、天文学や宇宙物理学の分野では、データの量が爆発的に増え、まさにビッグデータとなった。この流れは、これからさらに加速していくことが確実だ。一方で、コンピュータの進化と、機械学習や統計学など応用数学の進歩が同時に進み、新しいデータ科学の手法が急速に発達している。

そんな状況を見て、池田は「今後、天文学や宇宙物理学において良い成果を上げていくには、データ科学の方法を導入することが必須でしょう」と指摘する。統計学者の立場から、そのための支援をするつもりだ。

天文学出身の研究者である森井を特任助教として迎えたのも、人材育成の一環だ。森井自身も「ここで統計手法をしっかり身に着け、天文学研究に応用していきたい」と語る。

池田はまた、天文学・宇宙物理学研究者を対象とする公開セミナーも積極的に企画している。5月29日から3日間にわたり統数研で開催した研究会では、関連分野からデータ科学を共通項として幅広い話題を提供。およそ90人の若手研究者が参加し、熱い議論を交わした。

「今後、天文や宇宙物理において、統計手法によって見えてくるものが増えることを期待したい」と池田は話している。

自ら企画した公開セミナーでレクチャーする池田思朗教授。セミナーには、天文学や宇宙物理学の研究者およそ90人が参加した。

(広報室)


ページトップへ