響き合う人とデータ―統数研プロジェクト紹介

第19回「基礎医学と社会医学をつなぐ離散幾何学的モデリング」

離散数学で解き明かす「細胞分化の木構造」

未来のイノベーションの芽を育む個人型研究「JSTさきがけ」。統計数理研究所の早水桃子助教の「基礎医学と社会医学をつなぐ離散幾何学的モデリング」は、国が推進するこのプログラムに採択された研究提案の一つだ。コンピューターサイエンスの基礎である離散数学という分野の研究からオープンソースのデータ解析ソフトウェアの開発までを手がけ、幹細胞工学など社会的に重要な領域にもつながる研究の一端を紹介する。

距離データに潜むグラフ構造を描出する「離散幾何学的モデリング」

▲早水桃子助教

早水助教が提案する「離散幾何学的モデリング」という枠組みは、有限個の点同士の非類似度が「距離」として数値化されていて、その非類似度のデータを「グラフ」(点と線からなる図)で記述したいという状況を扱うためのものだ。「複雑なデータや現象の全体像をシンプルなグラフで描出するという課題は色々な文脈で現れますが、特に生物学の研究では重要なものです」と早水。

例えば、形態学的な特徴やDNAの塩基配列などに基づく「距離」から進化の系統樹を再構築するというデータ解析は、離散幾何学的モデリングの古典的な例だ(図1)。距離の情報から系統樹というグラフ構造を知るための理論や方法は深く研究されてきた歴史があるが、生物学の世界には既存の数学的な概念や統計学的な手法だけでは太刀打ちできない課題が多数ある。例えば、生物の進化と同様に、細胞の分化もまた木構造で記述される現象だが、進化の道筋を推定する課題とはデータの種類や医学・生物学的なゴールが異なるため、細胞分化の木構造を解明する課題ならではの新しい方法論が必要だ。一方、農作物の品種改良のように、異なる種の掛け合わせで新しい種が生まれる「交雑」と呼ばれる現象は、系統樹のように単純な木構造では記述できないため、「系統ネットワーク」と呼ばれる系統樹よりも表現力の高い一般的なグラフ構造が必要になる。

早水のプロジェクトは、現代の生命科学のニーズに応えて、多様なデータや現象をモデル化するために、さまざまなグラフと距離の関係を明らかにしよう、という挑戦だ。「複雑なデータに潜むシンプルな構造を描出することは、データの可視化だけでなく、本質的に重要な生物学的発見にもつながります」と早水は語る。

図1: 「離散幾何学的モデリング」という枠組みの概要と、その典型的なデータ解析の例。@から Eの点は現存する種、●の点は想像上の祖先を表す。

現代の細胞生物学におけるデータ解析上の大きな課題

「動物の進化と、細胞の分化は、木で記述される現象という意味では似ていますが、数学的には大きな違いがあります」と早水は指摘する。図1の例では、@からEで示した現存種同士の距離がデータとして与えられ、それらの6点の他に●印の祖先を含むような系統樹が構築されているが、言い換えれば、6つの現存種の多様性を説明するために、●印の絶滅種が存在したと考えて木を描いたということだ。しかし、このような想像上の点を含めずに、「6種の関係性だけを描きたい」という状況もある。「細胞同士の関係性の全体像を木で説明したい」という問題意識は、まさにその一例だ。

細胞の分化とは、細胞の形態や機能が変わり、別の種類の細胞に変化する不可逆的な運命決定プロセスを意味する。いったん変化すると決して元に戻らないので、生物学者たちは、細胞分化の全体像は合流のない木構造で記述できると考えている(図2)。このような細胞分化の木モデルは、細胞生物学者たちが試行錯誤を繰り返して長い歴史の中で築き上げてきたもので、人類がこれまでの実験から得た知見の集大成といえる。

図2: 血液に関係する細胞の分化の全体像を描いた木グラフ。造血幹細胞(HSC)は、どの種類の血液細胞にもなれるポテンシャルを持つが、最終的には赤血球(RBC)やTリンパ球(T)などの何らかの細胞に分化する。

ところが、近年の実験計測技術の進歩はめざましく、今日の細胞生物学は大きな転換期を迎えている。かつての技術水準では、細胞の集団の遺伝子発現の状態を大雑把に調べることしかできなかったが、「1細胞技術」と呼ばれる現代のテクノロジーを使えば、個々の細胞における各遺伝子の発現量を、細やかに、しかも網羅的に計測できる。このような新技術がもたらしたデータをうまく活用できれば、これまでの細胞生物学の常識を覆すような新発見ができるかもしれない。実際、1細胞の遺伝子発現データを活用して細胞分化の木構造の全貌を解き明かすことは、今や世界中の細胞生物学者たちが抱く一つの大きな夢になった。そこで脚光を浴びているのが、個々の細胞同士の距離を説明する木グラフを構築するという、まさに「離散幾何学的モデリング」の考え方なのである(図3)。

図3: 細胞生物学者のニーズは、「個々の細胞から得られた詳細な遺伝子発現データを活用して、細胞分化の真の木構造を解明したい」というもの。

細胞分化の全体像を描き出す科学的に信頼できる方法論の開発

細胞同士の距離データから木グラフを抽出するための“経験則”として定着し始めたのは、離散数学の基本である「最小全域木問題」を解くアルゴリズムだ。これは、途中でサイクル(輪っか)ができないように距離が近いペアから順に結んでいき、すべての点を通る木が得られたら終了するという単純明快な方法だ。例えば、A〜Dという4つの細胞間の距離が得られているとしよう(図4)。まずは一番短い辺BCを選び、その次に二番目に短い辺ABを選ぶ。三番目に短い辺は二つあるが、辺ACを結んでしまうと、ABCというサイクルが形成されてしまうので、辺BDのほうを選ぶ。以上で、A〜Dのすべての点を通る木が得られたことになる。色を付けて強調されているのが、最小全域木だ。

図4:4つの点からなる距離データを表す完全グラフと、その中の最小全域木。最小全域木を求めるアルゴリズムは、距離から細胞の木を構築する“経験則”として普及し始めている。

「似た細胞同士を結んで木を作るという方法は直観的に自然ですが、最小全域木を求めるアルゴリズムで正しい細胞分化の木構造が得られるという理論的な保証はありません。科学的に信頼できる真に有用なデータ解析手法を創るためには、データと木モデルのフィッティングの良さを定量的に評価する尺度を確立させることが重要だと考えています」と早水は説明する(図5)。

図5:最小全域木は元の距離情報をよく表わしていることもあるが、まったくフィットしていないこともある。

このプロジェクトの最終的な目標は、与えられた距離情報に潜む本質的な木構造を抽出するための確かな方法論を構築し、それを実装したソフトウェアを開発し、世界中の生物学者が利用できる形で公開することだ(図6)。早水は「この研究を着想したのは、iPS 細胞の分化メカニズムを研究している医学系の研究者の方からデータ解析上の相談をいただいたのがきっかけです。数学や情報の研究者だけでなく、医学を含む幅広い分野の研究者たちが使いこなせるものを作り、生命科学の研究に貢献したいと思っています」と語る。

図6:プロジェクトのゴールのイメージ。細胞分化の全体像を推定して描出するような遺伝子発現データ解析ソフトウェアを開発する。

生命科学の根底にある課題を数理科学の力で解決したい

早水はもともと医学部出身で、数理の研究者としては異色の経歴を持つ。統計数理研究所で研究を始める前は、脳機能や代謝の程度を画像検査で調べる核医学分野が専門の放射線科医だった。「あまり聞き慣れない診療科かもしれませんが、放射性同位体を使って初期の認知症やがんなどの進行度合いを評価するという重要な分野で、統計学や物理学の知識は必須でした。目に見えないものをどうやって定量的に可視化するかという問題意識は、今の研究とも通じる部分があります」と早水は言う。

生命科学の知識と臨床経験に加えて、統計科学・数理科学・情報科学にわたる幅広い視野を持つ早水は、医学の研究者にとっても、数学の研究者にとっても、非常に心強い存在だ。とはいえ、異分野から転向した当初は、様々な分野との壁を感じることがしばしばあったという。数理の世界で医学部出身者はあまりにも珍しいうえに、医学の世界でも数学者とのコラボレーションに対して懐疑的な向きがあった。また、離散数学という分野自体も、統計の一部の研究者たちにとっては、あまり馴染みがないものに映ったようだ。「最近はようやく多くの方々に興味を持っていただけるようになりましたが、はじめのうちは、とにかく早く結果を出して、自分の研究の魅力や価値を伝えたいという気持ちがありました。大学院在学中に少し背伸びをして『さきがけ』に応募したのも、そういう背景があります」と早水は振り返る。

さきがけの研究タイトルに掲げたのは『基礎医学と社会医学をつなぐ』という言葉。早水は「幹細胞生物学が良い例ですが、医学の基礎研究のなかには、臨床医学や社会医学に対する影響力が大きいテーマがたくさんあります。そのような研究の突破口を、数理の力で開きたいのです」と思いを語る。

異業種連携でオープンソースのデータ解析ソフトウェアを開発

▲須藤功平氏(株式会社クリアコード代表取締役) ▲石井大海外来研究員(DeepFlow株式会社)

このプロジェクト紹介の取材には、早水が受け入れている統数研の石井大海外来研究員と、ソフトウェア開発を手掛ける民間企業、クリアコードの須藤功平代表が参加した。

石井は民間企業の研究開発者だが、もともとは数理論理学や計算代数が専門だった。「プログラミングの過程で離散数学やグラフ理論を使うことはありましたが、アルゴリズムを適用することの妥当性を定量的に評価するような研究は初めてなので新鮮です」と感想を述べる。専門が異なるからこそ、有意義なディスカッションができる部分があると早水も言う。

一方、クリアコードはフリーソフトウェアを開発していた須藤氏が立ち上げた会社だ。自分たちで書いたコードを独占するのではなく、誰でも自由に使える形で公開することで対価を得る開発スタイルを貫いている。

アメリカでは研究者とエンジニアが連携してソフトウェアを開発し、論文を発表するということが珍しくないが、日本ではまだあまり一般的ではない。論文の査読者や読者が内容を検証できるように、開発したデータ解析ソフトウェアを無償で公開しようと考えていた早水にとって、オープンソース・ソフトウェアを開発する企業の理念はうってつけだった。

須藤氏は「ソフトウェアを開発する技術に加えて、公開して普及させるのが、当社の得意とするところです。この強みをプロジェクトで生かしたいと思っています」と話す。

早水は「大学や研究所での研究プロジェクトに民間の意欲的なエンジニアを巻き込むことは、研究者側が積極的に動かないと難しい。私のプロジェクトが良い成功事例として広まり、日本でもこのような異業種連携がもっと一般的になればいいと思っています」と話す。医学と統計数理をつなぐ研究内容も先駆的なら、その進め方も新しい。さまざまな意味で「さきがけ」と言えるプロジェクトだ。

(広報室)


ページトップへ