響き合う人とデータ―統数研プロジェクト紹介

第8回「物質科学への応用に向けた位相的統計理論の構築」

トポロジーを応用した統計理論でソフトマターの構造解明を目指す

ガラス、タンパク質、コロイドなど柔らかい物質、いわゆる「ソフトマター」は、その物質を構成する単位がいずれも複雑な幾何構造を形成している。新材料の開発や難病の治療法確立には、関連するソフトマターの構造解明が不可欠だ。トポロジー(位相幾何)を応用した位相的データ解析という新たな数学的手法によって、この構造を明らかにするための記述法を開発するプロジェクトで、統計数理研究所は位相的統計理論の構築を担っている。

記述困難だった非晶質の構造を位相的に捉える新たな方法論

ガラスやタンパク質など、複雑な原子配置構造を持つソフトマター。長年にわたり、その構造を適切に記述する方法の開発が求められてきた。というのも、物の構造は、機能と密接な関連があるからだ。例えば、材料の分子構造は、その材料の持つ硬さや柔らかさや強靭さといった特性に直結する。材料の設計やネットワークの制御などを検討する際にはまず、対象とする物の形を記述し、特徴づけをすることが不可欠だ。

物の形は、三角形の集まりとして記述することで代数的な扱いが可能になる。基本構造の繰り返しからなる結晶構造を持つ物であれば、比較的容易にその形状を記述することができる。だが、ガラスのようなアモルファス(非晶質)状態の物質の場合は、一筋縄ではいかない。これらの構造は単一の大きさの構造を持たないことから、マルチスケールで考える必要があり、それを記述しようとすると情報量は膨大になってしまう。

こうした課題にまったく新しい角度から解決への道筋を照らし出したのが、トポロジーを応用した位相的データ解析の手法だ。科学技術振興機構のチーム型研究「CREST」に採択された「ソフトマター記述言語の創造に向けた位相的データ解析理論の構築」は、データの「形」を定量的に記述する理論を確立し、ソフトマターの構造解析へ応用することがテーマ。高機能ガラス材料や、疾患関連タンパク質のフォールディング構造解析といった挑戦的基礎研究を実施している。

東北大学原子分子材料科学高等研究機構の平岡裕章教授を研究代表者とし、統計数理研究所からは福水健次教授と栗木哲教授が参画している(図1)。

▲福水健次教授 ▲栗木哲 図1:研究の推進体制。プロジェクトチームは純粋数学、応用数学、統計科学、確率論、物質科学など幅広い分野の研究者で構成されている。

「穴」の数をマルチスケールで数えるパーシステントホモロジー

トポロジーでは、連続的に移り合う図形は同じとみなす。たとえば、「穴が一つ」という共通の性質を持つ「取っ手のついたマグカップ」と「リング状のドーナツ」は、それぞれを引き伸ばしたり曲げたりすることで、切り貼りをしなくても移り合える。したがって、この二つの物体は、トポロジー的には同じということになる(図2)。

図2:トポロジーは、物の形を連続変形させた際に保たれる性質に着目した数学の一分野。左のマグカップと右のドーナツは、「穴が一つ」という特性を保ったまま移り合うことから、同一とみなされる。

今世紀になって、このトポロジーを応用した新たなデータ解析手法が開発された。それが、データの位相的・幾何学的情報を抽出することによって解析を行う「位相的データ解析(Topological Data Analysis=TDA)」だ。

TDAは「パーシステントホモロジー」をキーテクノロジーとする。「ホモロジー」は、図形を点と線と三角形の集まりで記述したうえで、そこに含まれる「穴」の数を数えるもの。ただ、これだけでは複雑な構造に対応できないことから、パーシステントホモロジーではさらに穴の数だけではなく、サイズや形、階層性などの情報までも同時に見ていく。

ノイズのある有限個のサンプルから真の構造を捉えようとするとき、どのような解像度(スケール)で見るかによって、見え方は違ってくる。例えば、小さいスケールでは不連続な集合として見えてしまうし、大きいスケールでは小さいリングがつぶれてしまうなど、適切なスケールの設定が難しい。

これに対し、パーシステントホモロジーを用いれば、トポロジー的に同じとみなせる「穴」の生成と消滅の様子をマルチスケールに捉えることができる(図3)。その表現法にはバーコードと「パーシステント図」の2種類がある。

図3:パーシステントホモロジーの概念。複数の点が時間の経過とともに膨らむと、点が連結して中央に「穴」が生まれるが、この穴は、さらに膨らむと押しつぶされて消滅する。パーシステントホモロジーは、その経過を表現する。

「ガラスとは何か」という命題を数学的な手法で解き明かす

プロジェクトチームはすでに、TDAを用いてガラスに含まれる階層的な幾何構造の解明に成功している。「アモルファスであるガラスの分子構造は、規則性がないように見えて実はある。ただ、物性を予測するのに何を見ればいいか、記述子がわからなかったのです」と福水は説明する。

こうした記述法の開発は、「ガラスとは何か」という基礎科学上の大問題への理解を深めるのに役立つ。同時に、産業にとっても、情報ストレージや太陽光パネルなどのガラス材料開発にも直接的に結びつく。平岡教授率いるグループの成果は、2016年6月に米国科学アカデミー紀要「Proceedings of the National Academy of Sciences」オンライン速報版に掲載され、世界中の注目を集めた。

ガラスは結晶とは異なる乱れた3次元原子配置を持っており、その構造を明らかにするには、広範囲の原子で構成される中距離構造を調べる必要がある。しかし、これまでの方法では、それぞれの原子の周辺の短距離構造までしか調べることができなかった。

中距離構造を記述する際のポイントは二つある。一つは、多くの原子からなる多体系の特徴をどのように記述するか。もう一つは、短距離から中距離までのマルチスケール性をどのように扱うか。プロジェクトはこれらの課題を、パーシステントホモロジーを用いたTDAで解決した。

具体的には、原子配置を空間内の点の集まりとみなし、そこに含まれるリングや空洞といった「穴」に着目するマルチスケールデータ解析を可能にする。これによって、シリカ(SiO2)などのガラスについて、液体とガラス状態の内部構造の違いを幾何学的に特徴づけた(図4)。なかでも、ガラス状態において、原子配置のリング構造に階層性を持った秩序構造が存在することを明らかにしたのは、大きな発見だった(図5)。ここで得られた知見を基に、プロジェクトはガラスの硬さの起源にあたる中距離秩序構造の記述などにも成功している。

図4:SiO2の原子配置(左)とそのパーシステント図(右)。ガラスは液体と異なり三つの曲線のような帯状領域を持つ。 図5:図4のガラス相のパーシステント図に存在する典型的なリング構造。パーシステント図は緑色のリングを捉えたもの。赤球はO原子、青球はSi原子を表す。

パーシステント図のデータ解析に機械学習的なアプローチを導入

今回のプロジェクトで、福水がチームリーダーを務める統計班では、ガラスの相転移の特徴づけなどに役立つデータ解析手法の確立に取り組んでいる。液状のシリカを急冷した際、液相からガラス相へ変わる瞬間の温度を特定するものだ。

データとしては、プロジェクトメンバーである中村壮伸氏(東北大)らが作成した、原子・分子の動きをコンピュータ上で再現するSiO2分子動力学(MD)シミュレーションデータを用いる。まず、温度を変えて80セットの3次元原子配置データを取得し、これを基に計算を行い、パーシステント図を作成する。ここまでが図4の状態だ。

従来の物理学的方法では、MDシミュレーションデータからエンタルピー曲線を描いて微分の推定を行い、その不連続点を推定する。だが、この方法では精度に限界があった。そこで今回、福水らはパーシステント図のデータ解析にあたり、カーネル法による機械学習を導入。非ベクトル的なデータをベクトル化することで、系統的データ解析を可能にした。「データセットから起こした多くのパーシステント図を記述子として、最終的に転移点を数値にまで落とし込むことを目標としました」と福水は振り返る。

データセットから得た80個のパーシステント図から、カーネル変化点検出法によって液相とガラス相の転移点を検出したのが図6だ。縦軸は変化の度合いを示し、横軸は温度を表す。35番目あたりの温度で鋭いピークを取り、これが相転移の瞬間だ。

図6:カーネル法による主成分分析の結果。ピークを取るところが変化の最も大きい温度を示している。 図7:図6で検出したベクトルに対し、さらにカーネル主成分分析を行い、2次元で表現することによって、液相とガラス相の変化点が明確となった。

この数値化したベクトルに対してさらにカーネル主成分分析を行い、2次元で表現したのが図7。福水は「変化点検出の結果に基づいて液相を赤、ガラス相を青で色付けしてみると、転移するポイント、つまり液体と固体の境界が明確であることがわかりました」と話す。

新材料の開発や難病治療など幅広い分野に応用できる普遍的手法

機械学習のアプローチによって、SiO2の液相とガラス相の境界がはっきりと示された。このことで、パーシステントホモロジーによるTDAが、階層的で複雑な構造を持つソフトマターの特徴を記述するのに適した手法であることが証明されたわけだ。今後はさらに、物質の電気伝導性や熱伝導率を推定する方法への展開も視野に入ってくる。

「実際に材料を作ってその性質を調べるには、多大な時間と労力とコストがかかります。TDAによってコンピュータ上のシミュレーションで望ましい物質の候補を絞ることができれば、物質探索の大幅な効率化が期待されます」。福水は、このプロジェクトの研究の意義をそのように語る。次なるテーマは、タンパク質など高分子の形状の時間変化をパーシステントホモロジーによって解明していくことなどだ。

パーシステントホモロジーと同様に応用ホモロジーの一種である期待オイラー標数法を研究してきた栗木も、プロジェクトへの展開に意欲を燃やす。これまでに、この手法を用いてイネの遺伝子相互作用の検出などに実績を上げてきた(図8)。「このプロジェクトを通じ、純粋数学や確率の研究者ともダイレクトにディスカッションをする機会を得て、刺激を受けています。自分の研究がどのような形で役立てられるか、熟考しているところです」と栗木は話す。

数学的手法の最大の特徴である「普遍性」は、実社会におけるさまざまな課題解決への可能性を秘める。このプロジェクトの成果は、物性をデータ科学的に予測するマテリアルズインフォマティックスや、ビッグデータ解析への展開も期待されている。

図8:栗木が期待オイラー標数法・チューブ法を用いて、「致死遺伝子」となる二つの遺伝子の相互作用を確認した例。信号の統計的有意性を評価することにより、発見の偽陽確率をコントロールできる。

(広報室)


ページトップへ