平成282016)年度 一般研究1実施報告書

 

課題番号

28−共研−1014

分野分類

統計数理研究所内分野分類

f

主要研究分野分類

3

研究課題名

感染症ウイルスゲノム配列のビッグデータ解析とその応用

フリガナ

代表者氏名

イケムラ トシミチ

池村 淑道

ローマ字

Ikemura Toshimichi

所属機関

長浜バイオ大学

所属部局

バイオサイエンス学部

職  名

名誉教授

 

 

研究目的と成果(経過)の概要

エボラ出血熱やインフルエンザのように人類に多大な危機をもたらす可能性のある疾患に対しては、様々な先端技術を持ち寄った対策が急務と言える。生命科学分野で蓄積の著しいゲノム配列を代表例とするビッグデータの情報解析、特に大量データに対する超多種類のワードカウント処理(超高次元の超大量情報処理)の手法が、人類が直面するこの課題解決に有用な手段を提供できる。エボラやインフルエンザやエイズウイルスの増殖を抑える医薬品の候補の一つとして核酸医薬が期待されている。核酸医薬の英語名が therapeutic oligonucleotide であることからも明らかなように、オリゴヌクレオチド(具体的には、20〜30連続塩基の核酸断片)を遺伝子発現のブレーキ役(アンチセンスRNAやsiRNA等)として用いる方法である。我々のチームは、病原ウイルスの遺伝子発現を抑えるが、ヒト遺伝子の発現には影響を与えない核酸医薬を、共有メモリ型スパコンを用いてデザインしている。膨大なヒトゲノムやヒトRNA、並びに大量なウイルス株のゲノムについて、例えば20連続塩基(420:1兆種類以上の単語)の頻度解析が必要になり、超高次元のビッグデータ解析となり、世界的にも最高水準のコンピュータを用いる研究開発となっている。
ヒトのゲノム配列には個人や人種による差異があるが、それらを考慮した上で、かつ、可能な限り副作用の少ない核酸医薬のデザインをする必要がある。またウイルス側も常に塩基配列の変化を繰り返しているので、変化方向の予測も含めて、国際DNAデータバンクに収録されている関係情報の全体を対象にしたビッグデータ解析が不可欠である。更には20連続塩基を構成している、より短い構成要素(例えば、5〜10連続塩基)のヒトゲノムやヒトRNA、並びに病原ウイルス株での出現頻度特性の把握が重要になるが、我々のグループがこれまで大型計算機を用いて開発を続けてきたBLSOM(一括学習型自己組織化マップ法)が有用となる。
この計算のためにはほとんどの場合メモリ領域が不足するが、統数研が保有するデータ同化スーパコンピュータシステムのような世界最大規模の共有メモリ型計算機の利用が非常に有効となる。
われわれの開発しているBLSOM(一括学習型自己組織化マップ法)のプログラムに国際DNAデータバンクに収録されている関係情報の全体を対象としてスパコン上で解析できるようにする。
BLSOM解析に必要なメモリ容量は現時点で、
頻度ベクトルのデータ件数(40万件)x 頻度ベクトルの次元数(4^12)x 各変数のメモリサイズ(8バイト)= 約54テラバイト
である。
このような大規模なデータをスパコン上で解析できるようにする。
現時点で国際塩基配列DBに収録されている全てのヒトRNAではほとんど使われないが(言い換えれば、副作用の危険性の低い候補)、各ウイルス種については、広範囲の株の遺伝子で使用されるオリゴヌクレオチド類を核酸医薬(ブレーキ役)の候補と想定している。頻度解析をしているオリゴヌクレオチド長は10〜50連塩基を中心としているが、
大量のヒトRNA全体や大量のウイルス株全体のRNA類について、オリゴヌクレオチド頻度解析を行う必要があり大量で高次元なビックデータ解析を行う。

研究目的と成果(経過)の概要

エボラ出血熱やインフルエンザのように人類に多大な危機をもたらす可能性のある疾患に対しては、様々な先端技術を持ち寄った対策が急務と言える。生命科学分野で蓄積の著しいゲノム配列を代表例とするビッグデータの情報解析、特に大量データに対するワードカウント処理(例えば超高次元の大量データの情報処理)の手法が、人類が直面するこの課題解決に有用な手段を提供できる。エボラやインフルエンザやエイズウイルスの増殖を抑える医薬品の候補の一つとして核酸医薬が期待されている。核酸医薬の英語名が therapeutic oligonucleotide であることからも明らかなように、オリゴヌクレオチド(具体的には、20〜30連続塩基の核酸断片)を遺伝子発現のブレーキ役(アンチセンスRNAやsiRNA等)として用いる方法である。
例えば20連続塩基の解析では、1兆種類以上の単語の頻度解析が必要になり、超高次元のビッグデータ解析となる。我々のチームは、進化速度が極端に速く対処を困難にしている、病原性のRNAウイルスを対象に解析を行った。具体的には、エボラ、インフルエンザ、マーズ、デング、ジカ熱を引き起こすRNAウイルスに着目して、公的なデータベースに収録された全ゲノム配列の内で、採取時期と採取地が記載れている配列について、各ウイルス集団内でのオリゴヌクレオチド頻度の時系列解析を行った。
上記の全てのウイルスにおいて、時系列的に単調に減少や増加するオリゴヌクレオチドが特定できた。20連続塩基程度のオリゴヌクレオチドは、核酸医薬の候補となる。核酸医薬であるsiRNAの候補の内で、細胞系の実験で活性が確認された例がデータベース化されている。これらについても、単調減少や単調増加する例が確認できた。ウイルス集団内で、時系列的にその頻度を減少させる核酸医薬は、薬効を失いやすい。単調増加するオリゴヌクレオチドと併用することで、効用が持続する核酸医薬となる。オリゴヌクレオチド頻度の時系列解析はこの様な提案を可能にする。
併せて、低分子RNAであるtRNAについて、AIを用いた知識発見、具体的にはオリゴヌクレオチド組成に着目した、「教師無し機械学習:BLSOM」を行った。大量に蓄積しているメタゲノム配列からの、能率的な新規知識発見に適していることが示された。



 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1. Yoshiko Wada, Kennosuke Wada, Yuki Iwasaki, Shigehiko Kanaya, and Toshimichi Ikemura. Directional and reoccurring sequence change in zoonotic RNA virus genomes visualized by time-series word count. Sci Rep. 2016; 6: 36197.Published online 2016 Nov 3. doi: 10.1038/srep36197

2.Yuki Iwasaki, Takashi Abe, Kennosuke Wada, Yoshiko Wada, Toshimichi Ikemura. An artificial intelligence approach fit for tRNA gene studies in the era of big sequence data. Genes & Genetic Systems. Article ID: 16-00068

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

「ビッグデータ時代のマイクロバイオームの進化研究」
日程:2017年2月27日〜28日
場所:長浜バイオ大学
参加人数:60名

 

研究参加者一覧

氏名

所属機関

和田 健之介

長浜バイオ大学