響き合う人とデータ―統数研プロジェクト紹介

第33回「ものづくりデータ科学研究センターにおけるデータ駆動型材料研究」

データ科学と計算科学を両輪に「高分子材料物性の大地図」作成へ

材料開発の手法を一変させる可能性を秘めたマテリアルズインフォマティクス(MI)。だが、高分子材料についてはデータの少なさから研究の遅れが目立つ。統計数理研究所のものづくりデータ科学研究センターでは、高分子材料の計算機実験を全自動化するオープンソフトウェアを開発し、産学連携のコンソーシアムによるデータベース構築を目指している。「高分子材料物性大地図」が切り開く材料開発の未来像とは。

機械学習を活用して新材料とその作製法を予測

マテリアルズインフォマティクス(MI)は、データ科学と計算科学を駆使して材料開発のスピードアップを図る革新的な手法として、近年注目を集めている。とくに最近は、機械学習の技術的進歩とコモディティ化が急速に進んだことで社会の認知や制度が大きく変容し、データ駆動型の研究開発への期待が最高潮に高まっている。

▲吉田亮教授

こうした状況を受けて2017年に発足したのが、統計数理研究所の「ものづくりデータ科学研究センター」だ。センター長を務める吉田亮教授のリーダーシップのもと、データ科学の予測技術を駆使して、高分子材料や準結晶を初めとする新物質の発見やさまざまな材料研究に取り組んできた。

MIにおける最大の関心事は、広大な探索空間(考えうる解の集合)の中から、所望の特性を有する物質を発掘することだ。機械学習を用いてデータのパターンを読み解き、材料の物性や構造の膨大な組み合わせの中から、新たな特性を有する新材料とその作製方法を予測する。

「私たちが手掛けるデータ駆動型高分子材料研究の基本的なスキームは、次のようなものです」と吉田は説明する。

まず、高分子の組成や構造を入力としてその特性を予測するモデルを構築する。次に、そのモデルを使い、出力から入力を推定する逆問題を解き「ある特性をもつ高分子材料は何か」を計算する(図1)。有望な候補が推定されれば、実際にその高分子を作製して検証する。

図1:データ駆動型高分子材料研究の順問題・逆問題。統計的機械学習によって、所望の特性を有する高分子材料を予測・発見する。 ▲Stephen Wu准教授

吉田とStephen Wu准教授らのグループは2019年6月に、独自の機械学習の解析技術を用いたMIによって、高熱伝導性高分子を設計・合成し、従来の高分子に比べて約80%の熱伝導率の向上に成功。その研究成果は、英国のnpjComputational Materials誌に発表された。

MIによる高分子材料開発の鍵を握るデータベースの構築

計り知れないポテンシャルを持つMIだが、高分子材料分野については大幅な遅れが指摘されている。その主な原因は、データ資源の圧倒的な不足だ。「高分子の構造と物性についてのデータが大量にあれば、ディープラーンニングなど機械学習のアルゴリズムを用いて、任意の構造からその物性を予測できるはずです。しかし、データベースが整っていないのが現状です」と吉田は言う。

高分子化合物(ポリマー)は、小さな分子からなる低分子化合物(モノマー)を重合、すなわち繰り返しつなげていくことでできる。高分子物性のデータベースとしては、国立研究開発法人物質・材料研究機構(NIMS)が開発しているPoLyInfo(ポリインフォ)が知られている。

PoLyInfoには、約18,000種のモノマーから重合されたポリマー群の約100物性のデータが登録されている。だが、論文などの実験値を手作業で収集していることから、登録されたデータも断片的であることが否めない。

データの不足を補うためには、シミュレーションから得られるデータを統合的に解析する必要がある(図2)。現在、世界各国で大規模な計算物性データベースの開発が模索されており、無機化合物や低分子化合物については、第一原理計算によるデータベースが開発されてMIが飛躍的に進展した。

図2:プロジェクトが描くデータ駆動型材料研究の将来像。オープン領域でシミュレーションによるデータベースと実験によるデータベースを充実させ、データ科学で両輪を回すことで、それぞれのクローズ領域で活用できるようにする。

これに対し、高分子材料については、計算物性データベースの開発はほとんど進んでいない。「壁となっているのが、物性計算の自動化の技術的な難しさと、分子シミュレーションの膨大な計算コストです」と吉田は指摘する。

高分子材料は、構造の複雑性・多様性が無機材料に比べて非常に高い。この特性から、計算条件の設定により計算結果が大きくゆらぎ、計算量も膨大になってしまうのだ。

Wuは「これまでに数個の新しい高分子材料を発見してきましたが、データが乏しく、いずれもトライ・アンド・エラーを繰り返してようやく見つけたものです。手法を工夫するだけでは、突破できない問題だと痛感しました」と明かす。

「データ駆動型研究における最も重要な学術資源は、言うまでもなくデータです。このままでは、大学の研究室や一企業で生産可能な小規模なデータが標準になってしまう可能性があります」と吉田は危機感をあらわにする。大規模なオープンデータベースの構築は、MIによる高分子材料開発の鍵を握ると言っていい。

データ生産の全自動化を実現した世界初のオープンソフト「RadonPy」

▲林慶浩助教

吉田は、ものづくりデータ科学研究センターの事業として、MIの大きな課題である大規模データベースの構築に向けた構想を打ち出した。高分子材料の物性計算を全自動化するオープンソースソフトウェアを開発し、産学連携のコンソーシアムでデータベースを共創しようという前代未聞の取り組みだ。

その第一歩となる成果が、林慶浩助教を中心とするチームが開発し、2022年11月に公開した「RadonPy(ラドンパイ)」だ。高分子材料の繰り返し単位(モノマー)の化学構造と重合度、温度などの計算条件を入力とし、アモルファス(規則性のない鎖)状態や液体状態における熱物性、機械特性、光学特性などさまざまな物性を自動計算することができる世界初のソフトウェアだ(図3)。

図3:RadonPyでは、複数物性の同時分布を網羅的に観測できる。実験だけではこうした網羅的観測は不可能。

開発に当たった林は、材料シミュレーションを専門とする研究者で、2020年に統数研に移籍した。「複雑な現実をシンプルなモデルに落とし込む従来のシミュレーションに限界を感じ、統計学やデータ科学の知見を取り入れたいと考えました」と、その理由を話す。

ものづくりデータ科学研究センターでは、原子や分子の動きをシミュレーションすることで、対象とする高分子化合物の物性を明らかにする「全原子古典分子動力学法(MDシミュレーション)」と呼ばれる手法の研究に着手した。

RadonPyのベースになっているのは、林が自らの研究の効率を上げるために特定の材料を対象として作成した自動化プログラムだという。それを改良して汎用性を持たせた。林は「どんな分子骨格が入力されても、計算が進むように作り込むのが大変でした」と振り返る。

これまで不可能と思われてきた自動計算による大規模データベースの構築に、RadonPyが活路を開いたのだ。

スーパーコンピューター「富岳」を活用したデータベース作成

2022年8月には、RadonPyとデータベースの共同開発を目的とする産学協働コンソーシアムも正式に発足した。

じつは、その1年半ほど前から非公式に活動を開始したものの、RadonPyを走らせる計算資源が足りないという問題に直面。吉田らは、いきなりのピンチに頭を抱えたが、ちょうど募集中だった文部科学省の「富岳」成果創出加速プログラムに応募し、採択された。データの生産にスーパーコンピューター「富岳」を利用できることになったのだ。

「富岳が使えなければ、プロジェクトは今のペースでは進んでいなかったでしょう。あれほど気持ちを込めて申請書を書いたことはありません」と吉田は笑う。

コンソーシアムには現在、統数研以外に3大学と企業23社が参画しており、約120名の研究者がRadonPyとデータベースの共同開発を推進。産学の多くの研究者が富岳の計算資源を最大限に活用し、日々膨大なデータを生産・蓄積している(図4)。

図4:産学連携コンソーシアムによる高分子物性データベースの共創。現在、3大学・23企業に所属する約120名がコンソーシアムに参画している。本事業は文部科学省「富岳」成果創出加速プログラムの支援を受けている。産学の多彩な研究者が組織の垣根を超え、「富岳」の計算資源を最大限に活用し、RadonPy及びデータベースの共同開発に取り組んでいる。 ▲橋愛子特任研究員

ものづくりデータ科学研究センターの橋愛子特任研究員もその一人だ。大学時代の専攻は日本近代美術史で、材料科学やデータ科学は専門ではないが、産学の多彩な研究者らが集うコンソーシアムやプロジェクトのマネージメントに従事する傍ら、富岳を活用したデータ生産とデータベース開発にも取り組んでいる。

「最初は不安がありましたが、RadonPyの操作は簡単でした。世界最高水準のスーパーコンピュータを扱う面白さを感じています」と橋は微笑む。RadonPyによる高分子物性データベースの構築について、高分子学会での発表にも挑戦するという。

林は当面の目標として「熱硬化性高分子などさまざまなクラスの高分子を計算できるようにRadonPyを進化させること。シミュレーションと実験値の誤差は機械学習で補正可能だと実証すること(図5)」を挙げる。「データベースを充実させることで、誤差も縮まる。5年後のRadonPyはもっとすごいことができるはず。高分子材料設計のプラットフォームが形成されるのが楽しみです」とWuも期待する。

図5:MD計算値と実験値の間に存在するバイアスとばらつき(上)が転移学習を用いた補正によって大幅に改善された(下)。これは実験と計算両方のバイアスとばらつきを転移学習は予測可能であることを意味する。

「われわれが目指しているのは、『高分子材料物性の大地図』をつくること。全体像を明らかにすることで、特異な特性を持つ新しい高分子なども発見できるかもしれません。産学連携によるデータの共創というモデルケースを社会に発信していきたい」と吉田は抱負を語る。実験と計算の両輪を回すデータ科学というエンジンが今、力強く始動した。

(広報室)


ページトップへ