響き合う人とデータ―統数研プロジェクト紹介

第20回「ものづくりデータ科学研究センターと共同研究部門」

データ科学を起爆剤として、従来のものづくりを刷新

ものづくりを戦略目標とするデータ科学の研究拠点として、統計数理研究所が2017年7月に設立した「ものづくりデータ科学研究センター」。2019年10月にはマテリアルズ・インフォマティクス(MI)のオープンソースプラットフォーム「XenonPy(ゼノンパイ)」を公開。また、三菱ケミカル(MCC)との共同研究部門「ISM-MCCフロンティア材料設計研究拠点」を立ち上げるなど、活発に取り組みを進めている。同研究センターの方向性や現状を紹介する。

データ科学と計算科学の融合で材料開発に新境地を拓く

▲吉田亮教授

これまで主に実験とシミュレーションによって進められてきた材料開発の分野が、データ科学の導入によって劇的に変わろうとしている。その取り組みが今、世界中で注目を集める「マテリアルズ・インフォマティクス(MI)」だ。

アメリカでは2011年に国家プロジェクト「Materials Genome Initiative(MGI)」がスタート。実験やシミュレーションのデータを利用した機械学習アルゴリズムによって、従来は10〜20年ほどかかっていた材料開発にかかる時間を半減することを目指すものだ。

これに続きヨーロッパでも2015年に「Novel Material Discovery Laboratory(NoMaD)」が、また中国では2016年に「北京マテリアルズ・ゲノム・エンジニアリング・イノベーション連盟」が設立された。

特に盛り上がりを見せているのが日本だ。物質・材料研究機構の情報統合型物質・材料研究拠点(NIMS)が以前から材料データの収集とデータベース整備に取り組んでおり、2015年7月に科学技術振興機構(JST)のイノベーションハブ構築支援事業として、情報統合型物質・材料開発イニシアティブ(MI2I:“Materials research by Information Integration” Initiative)を始動。これが日本におけるMIの学術創成のきっかけとなった。現在は、統計数理研究所の吉田亮教授が物質・材料記述基盤グループのグループリーダーを務めている。

さらに、2017年には吉田がセンター長となり、統数研に「ものづくりデータ科学研究センター」が発足。データ科学の予測技術を駆使して、材料開発や特定の機能をもつ新物質の発見に取り組んでいる。

材料分野をデータ科学の応用領域の一つとして有望視する吉田は、「材料や物質の世界は物理法則や理論があるので、これらとデータ科学の組み合わせによって、どういう構造の物質をつくれば、こんな機能を発現するだろうということをある程度の精度で予測できます。実際に作って検証する段階では難しさもありますが、ワークフローは非常にシンプルです。計算科学やデータ科学によって高い到達点を目指せると信じています」と意欲を語る。

オープンサイエンスの土壌づくりを目指すものづくりデータ科学研究センター

材料分野にデータ科学を応用し、成果を上げるためには、まず環境を整える必要がある。現状に足りないのは、オープンな研究開発の土壌だ。

材料研究のデータ量はデータ科学の他の応用領域に比べて圧倒的に少なく、MIの適用領域が限定されているのが実状。原因として、データ取得の高コスト性や、研究者のニーズの多様性によるコモンデータベース創出の難しさが挙げられる。だが、もっとも大きいのは、競合相手に対する情報秘匿の意識が高く、研究者にデータ公開に対するインセンティブが働きにくいことだ。

産業界ではデータ科学の有用性がここ2、3年で急速に認識されつつあり、成果も出始めているものの、オープンデータベースの開発は進んでいない。しかも、先端領域に近づくにつれてスモールデータの傾向はより顕著になる。コミュニティ全体でコモンデータを創出しようという動向も低調だ。

「画像認識や自然言語処理、AIなど、データ科学をドライビングフォースにしたテクノロジーが発展している分野には、いずれもオープンデータの素地があります。材料分野にもオープンデータ、オープンサイエンスのカルチャーが育てば、飛躍的な発展の可能性があるでしょう」と吉田は指摘する。

こうしたなか、産学連携へ向けた動きも出始めている。MI2Iコンソーシアムには法人会員82社、アカデミア会員10人が参加しており、双方から材料研究者、データ科学研究者、アルゴリズムの専門家など多彩な顔ぶれが集まっている。

ものづくりデータ科学研究センターが目指すのも、オープンな環境で産学連携の新たなモデルをつくることだ。「企業とタッグを組めば、理論・計算・実験それぞれの分野のトップレベル研究者と協働できる。いろいろなアイデアをもらえ、お互いに得るものが大きい」と吉田は言う。その言葉どおり、センターにはさまざまな企業や他分野のアカデミアの研究者がひっきりなしに訪れ、1日中活発なディスカッションが続く。

「転移学習」により少数の訓練データから予測精度の高いモデルを導き出す

▲Stephen Wu 助教

MIにおけるオープンサイエンスの一つの取組みとして、統数研のChang Liu特任助教とStephen Wu 助教、吉田を中心とするものづくりデータ科学研究センターのチームとNIMSの共同研究グループが、2019年10月、物性予測タスク訓練済みモデルの包括的ライブラリ「XenonPy. MDL」を公開した。このモデルデータベースと「転移学習」と呼ばれる機械学習の技術を組み合わせることで少数の訓練データから優れた予測モデルを構築する可能性が示された。MI分野の現状を打開するものとして画期的だ。

XenonPy.MDLは低分子、高分子、無機材料の45種類の特性を対象として開発した約140,000個の機械学習の訓練済み予測モデルからなる。MIのさまざまなタスクを実行する機械学習アルゴリズムが実装されており、ユーザーはAPI経由でXenonPy. MDLの訓練済みモデルを再利用し、材料設計のさまざまなワークフローを構築できる。

このソフトウェアの鍵を握るのは、あるタスクで訓練されたモデルを他のタスクに転用する転移学習と呼ばれる解析手法だ。

機械学習は、訓練データとテストデータの類似性に基づいて予測を行うため、周辺に訓練データが全く存在しない領域では予測能力を失う。しかし、今回の共同研究では、関連するタスクで大量のデータを用いて事前学習を行い、獲得した汎用的な特徴抽出器を目標ドメインに転移すれば、目標タスクの訓練データが極めて少数だったとしても、転移されたモデルには既存データとは大きく異なるドメインの予測能力が備わっていることを明らかにした(図1)。この論文は、アメリカ化学会の論文誌ACS Central Scienceに掲載された。

図1:転移学習による高分子物性(熱伝導率)の予測。高分子熱伝導率の19件の訓練データを用いて、XenonPy.MDLの高分子のガラス転移温度、低分子化合物の比熱容量等の訓練済みモデルを転移し、外挿性を持つ予測モデルを構築することに成功した(Yamada and Liu et al., ACS Cent Sci, 2019)。

「データ科学の応用領域として、MI分野は社会的・経済的にも影響力が大きく、やりがいがあります。将来的にはXenonPyをMIのオールインワンのプラットフォームに成長させることがチームの目標です」とWuは話す。

この他、“スモールデータ問題”がより顕著な「高分子MI」の分野でも、転移学習を応用することで成果を出している。ものづくりデータ科学研究センター、NIMS、東京工業大学の共同研究で、高熱伝導性高分子を設計・合成し、従来の高分子に比べて約80%の熱伝導率の向上に成功したもので、機械学習が自律的に設計した高分子が実際に合成・検証された初の事例となった(図2:Wu et al., NPJ Comput Mater, 2019)。さらに、2019年度からは第2ラウンドとしてJST-CREST 熱制御領域「高分子の熱物性マテリアルズインフォマティクス」(代表:森川淳子(東工大)、機械学習・計算科学グループ代表:吉田)もスタートしている。

図2:三種類の高熱伝導性高分子の発見に至るワークフロー。転移学習を活用した熱伝導率の予測と分子設計の機械学習の技術が問題解決の突破口を切り拓いた(Wu et al., NPJ Comput Mater, 2019)。

材料メーカーとタッグを組み新規物質探索にブレークスルーを

▲白鳥和矢三菱ケミカル主席研究員

産学連携のプロジェクトも立ち上げた。ものづくりデータ科学研究センターと三菱ケミカル(MCC)との共同研究部門「ISM-MCCフロンティア材料設計研究拠点」だ。両者の知見を持ち寄り、データ科学による解析技術と計算化学による予測技術を融合して新規物質探索を行うMIの基盤技術を構築することが目的(図3)。

図3:三菱ケミカルとの共同研究部門による研究のイメージ。

データ科学に基づく物質探索では入力されたデータとの類似性から物性を予測するため、入力データに類似した範囲でのみ物質の探索が行われる。これに対し、計算化学では既存データの有無とは関係なく未だ現実には作成されていない材料、素材の性質を予測することが可能だ。

統数研の保有するデータ科学技術と、MCCの強みである計算化学技術を融合することで、既存データの範囲には含まれない革新的な特性を有する材料を見出すための物質探索アルゴリズムを構築するとともに、高分子、触媒、無機材料といった具体的な材料設計課題に適用しながらアルゴリズムの高度化を図る。

さらに、この研究部門で構築したアルゴリズムは、学術成果として積極的に発信していく。MI分野において、オープンイノベーション、オープンサイエンスを促進するチャレンジだ。

このプロジェクトに参画するMCCの白鳥和矢主席研究員は語る。「これまでの計算化学、材料分野のシミュレーションの多くは、物理法則に従って材料の性能を予測するものでした。分子など小さなサイズや短時間の現象であれば高精度に予測できる半面、物質探索においてはその計算コストが問題になることも多くあります。観点の異なるデータ科学の考え方を取り入れることで、革新的な特性を有する材料を見出すアルゴリズムが構築できると期待しています」。

同研究部門には、両者の研究員に加えて、MCCの親会社である三菱ケミカルホールディングスにおいてデジタル・トランスフォーメーションを推進する先端技術・事業開発室のデータサイエンティストも参加している。

「日本の強みであるものづくりや材料科学の技術をデータ科学と組み合わせれば、世界に勝てる戦略が見えてくるはずです」と吉田が話すように、チーム全体に従来のものづくりをMIで革新しようという気概が満ちている。

写真:共同研究部門「ISM-MCCフロンティア材料設計研究拠点」のメンバー

(広報室)


ページトップへ