研究室訪問

モデルからデータ、そして共同研究へ

 日本人はどこから来て、どこへ行こうとしているのか?時間を逆流させるような、過去への問いかけ。それは私たちにとって、自己確認の旅の始まりを意味する。いま、ルーツを求める知の旅人たちのサポーターとして、統計数理の新たな役割が求められている。

問題解決主義の伝統に共感して統数研へ

 間野は、それぞれの共同研究者の具体的な問題解決を通してゲノムデータ解析に関わってきたが、そもそもは偶然の本との出会いが間野をゲノムデータに導いたことが興味深い。

 それまではモデルの数理にしか興味がなかったけれども、学生時代の終わり頃から自然の認識におけるデータ解析の重要性を感じるようになり、データが取得され始めたような課題に取り組みたいと考えていた。近々ヒトゲノムのDNA配列が発表されるということを知り、ゲノムデータは気になる存在だったが、一方で知識はなく、近寄り難さを感じていた。休日に自宅近くの図書館で書棚を見回していたとき、「集団遺伝学概論」(木村資生著)という40年も前に出版された本が目にとまった。何気なく手に取ると、ゲノムの多様性に関わる現象を確率微分方程式によりモデル化し議論している部分があり、元々計算機が好きだった間野にとって近寄り難さは氷解した(図1)。

顔写真

間野 修平
数理・推論研究系
統計基礎数理グループ准教授

 「研究の蓄積によって洗練された確率モデルに基づき、大規模なデータを解析することが求められるはずのゲノムデータ解析にこそ、寄与できる道があるのではないか」。その直感を頼りに国立遺伝学研究所の博士研究員に応募したところ採用され、いくつかの職場を経て、2010年に「イノベーションISM」として行われた公募に応募して統数研准教授に採用された。「分野不問で現場主義・問題解決主義という伝統に共感できる人材を求めていたので、まさに私に当てはまると思った」と話す。

特殊性の強い先端的かつ学術的な課題にやりがいを感じる。

共同研究としてのゲノムデータ解析

 統数研の魅力のひとつは、間野にとって、研究所外の研究者と共同研究を円滑に行うことを支援する環境が整っていることである。共同研究は、人類学や医学に関する課題が多いという。それらの成果を紹介してほしいと依頼すると、「それぞれ 共同研究者の課題ですから、それらの成果を私個人の記事に掲載していただくことはできません」という生真面目な答えが返ってきた。しかし、「公開されているデータを用いて人類学の共同研究の雰囲気を紹介するなら」という条件で以下を語った。

 サイズが一定の遺伝子の集団を考える。ある世代のすべての遺伝子が多数の遺伝子を残して同時に死亡し、それらの遺伝子から無作為に選ばれた集団のサイズの個数の遺伝子が次世代を形成するモデルを考える。

 「時間を集団のサイズの数の世代で測ると、集団のサイズが十分大きいならば、図2に示すように、系図を遡るときの遺伝子の祖先の数は、各時点の遺伝子から2つの遺伝子を選ぶ方法の数をパラメタとする指数分布を待ち時間の分布として減少する死滅過程に従います。4つの遺伝子から2つの遺伝子を選ぶ方法は6通りあり、パラメタが6の指数分布の待ち時間の期待値は6分の1です」と間野は解説する。系図を遡ると標本のすべてはいずれ必ずひとつの共通祖先に到達することが示せるのだという。

 最近の計測技術の飛躍的な進歩により、個人のゲノム配列を容易に取得できるようになった。図 3は、公開されている配列データにベイズの法則を適用し、匿名の日本人のY染色体に対する匿名の韓国人及びある米国人のY染色体との共通祖先の待ち時間の分布を求めたものである。先ほどのモデルではパラメタが1の指数分布でありバラツキが大きいが、配列データを手にすることで非常にシャープな推測を実現できる。「このような解析を発展させたものが人類学研究におけるゲノムデータ解析と考えていただいてもいいでしょう」と、間野は慎重に言葉を選ぶように説明した。

最大の息抜きは「手計算している時間」

 統数研6階の最西端にある研究室では、いつも博士研究員の顔をのぞき込むようにして議論を重ねる間野の姿を見ることができる。「データ解析能力の優位性を示すことで研究者として独り立ちできるようにお手伝いすることが、自分の責務と考えています」と言う。

 難易度が高いけれども特殊性の強い先端的かつ学術的な課題にやりがいを感じるという。積極的な共同研究の一方、個人研究をどのように位置づけているのだろうか。「手計算に没頭しているときが私にとっては至福の時ですね」と語った。

(広報室)

図1.30年近く前から使っている計算機。


図2. 4つの遺伝子の系図。3回の祖先を共有する事象を経てひとつの共通祖先に到達。数字はそれぞれの事象の間隔の期待値。


図3. 匿名の日本人のY染色体に対する匿名の韓国人、米国人のY染色体との共通祖先の待ち時間の分布。配列データを用いることで、推測の曖昧さが黒い点線で示したパラメタ1の指数分布に対して著しく改善される。

ページトップへ