研究室訪問

生命を読み解く統計学への挑戦

 病気からの自由と健康・長寿は人類の普遍的な願いであり、生命の仕組は私たちにとって永遠の謎だ。医科学の父・ヒポクラテスの時代から2400年。人類が獲得した生命に関する情報量はとてつもない水準に達しつつあり、21世紀は「生命情報の時代」ともいわれる。

 そのような時代の最先端にいるという自覚が、いつも吉田さんを興奮させるという。統計科学者としての研究分野は「システムズバイオロジー」と「バイオインフォマティクス」。

 「昨今の超高速DNAシークエンサーの進歩は、数年前までは水平線の遥か彼方にあった『個人ゲノムの解読』と『個に特化した医療』を現実のものにしようとしています。私の挑戦は、計測とモデリング、統計科学が一体となった新たな研究手法を生命科学において確立することです」

抗癌剤の作用機序を読み解く

顔写真

吉田 亮
データ同化研究開発センター准教授

 バイオテクノロジーの進歩によって、ヒトの全遺伝子(約20,000個)の発現状態を観察できるようになった。しかし、人間の情報処理能力には限界がある。「仮説の構築(モデリング)とシミュレーションに始まり、現実を上手く説明できる更に優れたモデルを発見するまで、これを計算機上で系統的に実現する統計科学が必要」と、吉田さんは自らを鼓舞する。

 吉田さんは東京大学医科学研究所ヒトゲノム解析センターの宮野悟教授らとの共同研究によって、抗癌剤投与後の肺癌細胞の遺伝子発現の時間変化を追跡した。癌治療の現場では、抗癌剤が一旦奏効してもほぼ例外なく数年で耐性に変異することが知られ、耐性の獲得や維持に関わる分子メカニズムを解明することが重要課題だ。解析の対象とした細胞は抗がん剤が奏効する細胞(感受性細胞)、もう一方は薬の効かない癌細胞(耐性細胞)だ。データには、感受性細胞と耐性細胞のシステム的差異、つまり遺伝子レベルの薬剤作用機序の違いを読み解くヒントが隠されていた。

10年後の大発見は統計科学が切り拓いたものであることを強く願い、また、そうなることを信じている

最先端のデータ同化技術を駆使

 吉田さんらは感受性と耐性細胞の約20,000遺伝子の発現変化を再現するシミュレーションモデルの開発を行っている。このシミュレーションモデルは、感受性細胞と耐性細胞の違いに関わる分子基盤の同定やシステムの動作原理を解明するために活用される。

 図1から3には、耐性株と薬剤感受株の約20,000遺伝子の発現変化の様相が示されている。データには46個の発現クラスタが明瞭に浮かび上がり、これらは親株と耐性変異株の間で見事に保存されていることが確認された。遺伝子のスクリーニングを行ってみると、6,000個以上というかなり多くの遺伝子に有意な発現差があることが確認された。

 データ解析の現場においては、この結果からどのような手順で数個のマーカーを選択しているのだろうか。「私の知る限りにおいて、解析者の有する先見知識や学術的興味と合致する局所メカニズム(パスウェイ)に対象を限定し、バイアスのかかったフィルタを通して観察事象を消化していくというアプローチが典型的です」と吉田さんは言う。

 そのように絞り込んだ分子を実験で阻害し、薬剤耐性変異を抑制できることが証明されれば、医学にとって大いなる前進だ。しかし、情報科学や統計科学者の視点からこの作業工程を見ると、データのハイスループット性の恩恵を十分には活かし切れていないようにも思えるという。このような生命科学研究の現状を打破すべく、データ同化と呼ばれる統計科学の解析技術によって抗癌医療の新たな頁を開こうとしている。

 「作為的に切り離された膨大な遺伝子群の中に、システムのより深い理解へと導く重要な切り口が埋もれていないか。われわれはモデリングとシミュレーション技術を活用しながら生物の情報複雑性と対峙していく必要がある」と吉田さんは指摘する。

生命をシステムとして理解する難しさ

 実験が生み出す大量のデータは複雑な生命の仕組みを読み解く鍵になることは間違いないが、膨大な情報を科学的知識に昇華させるのは人間であり、ここに今の生命科学の難しさがある。だからこそ、多面多階層・網羅的な分子計測技術から得られる膨大なオミックス情報を総動員し、生体内分子ネットワークの動作原理を巨視的な視点から読み解く――このような目標を実現するための新しい統計解析プラットフォームの確立が、自分自身の目標であると、吉田さんは確信する。

 2004年に総合研究大学院大学の統計科学専攻コースを修了し、2007年助教、2011年准教授と統数研育ちの生え抜きコースを歩んでいる。オフの時は喫茶店をハシゴしながら、考えることを楽しむという。今後10年の生命科学における、統計科学のポテンシャルと果たすべき使命への思いが去来する。「人生は短く、術のみちは長い。機会は逸し易く、試みは失敗すること多く、判断は難しい」とは、ヒポクラテスの残した言葉である。

 吉田さんは統計科学者としての目標達成に向け、「忍耐」と「生命を少しでも多く深く知りたいと願う強い意志」を自分に課している。「10年後の大発見は統計科学が切り拓いたものであることを強く願い、また、そうなることを信じている」と爽やかに言い放った。

(企画:広報室)

図1.共発現遺伝子のプロモータ解析。プロモータ配列のパターン学習から、薬剤耐性癌の共発現系遺伝子が共有する転写因子結合モチーフを予測することに成功
した。


図2.薬剤感受性株と耐性変異株の全遺伝子転写動態シミュレーション。異なる4種類の処理条件のもとで、約20,000 遺伝子の発現変化を24時間追跡した。


図3.遺伝子発現パターンのゲノム位置情報へのマッピング。ヒストン修飾等によるエピゲノム的な転写制御機構が薬剤耐性の維持に関与していることが明らかになってきた。

ページトップへ