響き合う人とデータ―統数研プロジェクト紹介

第22回「適応型実験デザインによる物質計測の高効率化」

機械学習と統計的手法で新材料の研究開発を加速化

ある世界では当たり前に行われていた慣習が、他分野の視点によって、劇的に変化することがある。材料開発に欠かせない「量子ビーム計測」もその一例だ。X線などのエネルギーを細かく変えながら数百回も繰り返していた実験方法に、機械学習の手法を取り入れ、時間を短縮する取り組みが進んでいる。

量子ビーム計測の実験慣習に産業界が投じた一石

▲小野寛太准教授(高エネルギー加速器研究機構)

「実験にこれほど時間がかかるのは、どこがボトルネックになっているのですか?」今から4、5年前、共同研究を進める民間企業の研究者からこう尋ねられ、高エネルギー加速器研究機構(KEK)の小野寛太准教授ははっとした。量子ビーム計測に手間と時間がかかるのは当たり前で、それまで気にも留めていなかったからだ。

新材料や新物質の開発には、X線などの量子ビームを用いて物質や材料の中に存在する電子の振る舞い(電子状態)や原子の並び方(結晶構造)を詳細に調べる実験が不可欠。強度の高い量子ビームを作り出すには加速器と呼ばれる大規模な装置が必要で、日本にはX線を発生するSPring-8(兵庫県佐用町)や高エネルギー加速器研究機構Photon Factory(茨城県つくば市)、中性子やミュオンを発生するJ-PARC MLF(茨城県東海村)などさまざまな施設がある。

量子ビーム計測では、試料となる物質に量子ビームを照射し、ビームのエネルギー(波長)や試料の位置・角度を細かく変えながらそれらに対する応答(スペクトルや回折パターン)を検出器で測定する(図1)。従来の実験方法では、スペクトルを測定するには、ビームのエネルギーを連続的に細かく変える必要があった。

図1:量子ビーム計測の概念図。

例えば、最先端の量子ビーム計測の一種である走査型透過X線顕微鏡で100×100ピクセルの画像を得ようとすれば、1万点の試料位置をスキャンすることになる。典型的な材料分析の実験では、X線のエネルギーを200回ほど変えながら試料位置スキャンとX線の検出を繰り返すため、スキャンする点は200万点にも上っていた。当然ながら、時間がかかる。1種類の試料の計測に、5〜6時間ほど費やすことも稀ではなかった。

ところが、この「200回」というX線エネルギー点数は、じつは科学的な根拠のある数字ではないという。熟練の実験者たちが導き出した経験則であり、世界中で同様の手法が採られていた。誰も疑問を持つことなく、黙々と実験にいそしんでいたのだ。

そんな慣習に一石を投じたのが、材料開発にスピードを求める産業界だった。「私自身、企業の研究者に指摘されるまで、そんな落とし穴があるとは思っても見ませんでした。『時間がかかるのはなぜか』という問いにうまく答えられなかったことが、実験の効率化を考えるきっかけになりました」と小野准教授は振り返る。

何とかX線エネルギー点数を減らすことはできないか――。模索するなかで、可能性を感じたのが、各界で急速に成果を上げつつある機械学習だった。ちょうど、材料の分野でも、統計学や情報科学を活用したマテリアルズ・インフォマティクスに注目が集まり始めていた頃だ。

機械学習でスペクトルを予測し計測すべき点を自動決定

▲日野英逸教授 ▲上野哲朗主任研究員(量子科学技術研究開発機構)

2016年5月、筑波大学人工知能科学センターの設立に先立つプレオープンシンポジウムが物質・材料研究機構(NIMS)で開催された。当時、同大に所属していた統計数理研究所の日野英逸教授は、その会場でNIMSの研究者と出会う。後日、その研究者とともに日野の研究室を訪れたのが、小野准教授だった。「日野さんは、求めるデータを統計的手法によって合理的に取得する研究をされていた。これをわれわれのX線スペクトル測定に応用できるのでは、と期待したのです」(小野准教授)。

こうして、両者の共同研究がスタートした。当時NIMSのポスドク研究員としてKEKに常駐していた量子科学技術研究開発機構の上野哲朗主任研究員も、このプロジェクトに参加することになった。

実験効率を上げるには、より強いビームを使用すればいい。しかし、それには加速器の大型化やカメラの高性能化などハードウェアへの投資が必要であり、莫大なコストがかかる。一方で、「ソフトウェアによって効率化できれば、今ある設備を使ってより多くのデータを取ったり、細かく調べたりすることが可能になります」(上野主任研究員)。もちろん、設備増強に比べてコストは圧倒的に少なくてすむ。

「話を聞いてすぐ、機械学習の一つである『アクティブラーニング(能動学習)』が使えそうだと直感しました」。日野はこの頃の様子をこう話す。能動学習は、データの分類の正解がラベルとして示されている「教師あり学習」の一種で、学習に用いるデータを逐次的に選択する手法。データ量が膨大で、ラベル付けに手間のかかる場合に強みを発揮する。

日野はこの能動学習と、多次元の正規分布(ガウス分布)に基づく曲線を観測データに当てはめる「ガウス過程回帰」を組み合わせた手法を提案。プロジェクトでは、これに基づき「ガウス過程回帰によるX線スペクトル測定の適応型実験デザイン」を開発した。

X線スペクトルには、物質によって特徴的なピーク構造がある。これまでは「ピークの出るエネルギー範囲ではデータ点の間隔を細かく、それ以外のエネルギー範囲ではデータ点の間隔を粗く」測定するなど、実験者の経験と勘に基づいて実験計画を立てていた。

これに対し、プロジェクトで開発した手法では、ガウス過程回帰を用いて実験データを学習し、X線スペクトルを予測することで、計測すべきエネルギー点を自動的に決定する。実験者を介在することなく、最も効率的な実験計画を立てられるのだ(図2)。

図2:ガウス過程回帰による適応型実験デザインの考え方。

X線スペクトル測定の一種であるX線磁気円二色性スペクトル測定に適用した例では、これまでと同等の精度を保ちながら、従来の5分の1程度の計測点数(測定時間)で物理量を決定できることが明らかになった(図3、4)。

図3:ガウス過程回帰に基づくX線磁気円二色性スペクトルデータ取得の様子。点線は従来型測定によるスペクトル、青線はガウス過程回帰による予測スペクトル、赤線は誤差スペクトルを表す。初期データ30点を計測し、ガウス過程回帰で学習することで次の計測点を自動的に決定する。データ点数が40点で大まかなスペクトルの形が、70点では細かいピークも含めて従来型測定の結果を再現することがわかる。
図4:測定数に対する物理量(ここでは、軌道磁気モーメント)の収束の様子。適応型実験デザイン(赤点)の場合、従来の実験に比べると5分の1の測定数で済んでいることが分かる。

この研究成果は2018年1月、英国の学術誌「npj Computational Materials」にオンライン掲載された。

自動化に欠かせない「最適停止問題」に新たな解

プロジェクトにはまだ、大きな課題が残っていた。それは、「実験をいつ終了するか」という基準設定だ。適応型実験デザインでは、ガウス過程回帰によるスペクトル予測→解析→収束判定→新規計測点決定→計測のフローを繰り返す(図5)。収束判定で止めるタイミングを誤れば、AIはこのサイクルを回し続けることになり、結果として実験時間が無駄に長引く原因となってしまう。

図5:適応型実験デザインと従来の実験デザインの作業フローの比較。

「この問題には、オペレーションズ・リサーチの『最適停止問題』を、統計的学習理論の汎化誤差解析の観点から考察して新たな方法を考えました」と日野は説明する。最適停止問題の中では、古典的な命題である「秘書問題」がよく知られている。秘書を採用するとき、100人の応募者の中から優秀な1人を選ぶにはどうしたらいいか。それには、37人まで面接してレベル感をつかみ、38人目以降にそのレベルを超える人が最初に現れた段階でその人を採用する、というのが最適解だ。37人目までは無条件に不採用とすることから、「37%ルール」と呼ばれる。

X線スペクトル測定を自動化するうえで、この最適停止問題の解決は欠かせない一歩だった。日野の考案した新たな理論は、2020年8月に、国際会議「International Conference on Artificial Intelligence and Statistics」で発表された。

ロボットとの組み合わせも視野に材料開発の未来を開く

プロジェクトは順調に前進しているものの、チームメンバーが見つめているのは遥か先の道程だ。「量子ビーム計測に統計学が導入されるようになって日が浅く、この分野には大いに伸び代があります」と小野准教授は話す。

現在、取り組んでいることの一つが、「事前知識の導入」だ。初期データのサンプリングや解析によって獲得した関数に、それぞれ事前知識として文献情報やシミュレーションを導入してみるなど、最も効果的に学習サイクルの収束を早める方法を検討している。

その他、実装にあたり未知のスペクトルへ適用した場合の判断や、参照データと実験データの類似度評価の基準、エネルギーと空間に時間を加えた4次元計測への適用など、この適応型実験デザインを改良するために越えなければならない山はいくつもある。

「小野さん、上野さんとは、会うたびに課題について議論しています。統計学で解決できることは、まだたくさんあるはず。コストも少なくてすむし、X線スペクトル測定に限らず、さまざまな量子ビーム計測に波及できる。やりがいを感じます」と日野は言う。「ゆくゆくは、グーグルなどで欲しい物質・材料のデータを検索し、答えが得られるようなものができれば」と上野主任研究員も期待する。

適応型実験デザインがさらに進化し、自動化が進めば、熟練者ではなくても効率的な実験ができるようになる。いずれ、ロボットが自動で実験を行うようにもなるだろう。現在主流である自動車産業のほか、創薬のための物質・材料開発など幅広い分野への適用も予想される。このプロジェクトが、物質・材料研究の加速化の最前線を牽引していく。

(広報室)

新型コロナウイルス感染拡大防止のため、本インタビューはオンラインで行われました。


ページトップへ