平成282016)年度 一般研究1実施報告書

 

課題番号

28−共研−1011

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

高次元データから隠れた要因を探索するアルゴリズムの開発

フリガナ

代表者氏名

ウエキ マサオ

植木 優夫

ローマ字

Ueki Masao

所属機関

久留米大学

所属部局

バイオ統計センター

職  名

准教授

 

 

研究目的と成果(経過)の概要

大規模高次元データは、昨今、幅広い分野で普及しつつあり実際に活用が進んでいる。
例えば、大量の変数を観察し、仮説に基づかない網羅的な探索を行うことで未知の仮説を引き出すことにも有用である。
ところが、多くの変数を考慮することは、しばしば無視できないノイズの増加を招き、
真のシグナルとノイズの分離に多大な困難を生じさせる。
一例として、仮説検定を用いる状況を考えると、
帰無仮説数の増大により多重検定補正が厳しくなり、検出力の低下を招くことが挙げられる。
ゲノムワイド一塩基多型(SNP)および多数の環境因子から、
疾病等の形質にかかわる要因因子を特定する研究(ゲノムワイド関連研究;GWAS)が世界中で行われている。
ヒトのみならずイネなどの植物でもGWASが行われているが、
SNP数は数十万から数千万のオーダーに対して、
個体数は数千程度であることが多く、p>>nの状況にある。
現在のGWASでは、
個々の要因候補と興味対象となる変数との関連性(周辺効果)をひとつづつ調べていく単点解析が主流であり、
計算負荷を抑えつつ古典的な統計理論の枠組みのもとで実行できるが、
実際に発見されてくるSNPの効果はいずれも小さく、構造の解明には異なるアプローチが必要と考えられる。
所謂、失われた遺伝率と呼ばれる問題であり、残る未解明の変動を説明する因子を特定することが次なる課題である。
例えば、遺伝子間相互作用や遺伝子x環境間相互作用などは、失われた遺伝率を解明する上で、
重要な候補である。
さらには、連鎖不平衡によって生じたSNP間の相関が、
単点解析の検出力を低下させている可能性も考えられる。
これらの構造は周辺効果の評価からは発見不可能であり、
このような隠れた因子を高次元データから発見する統計手法の開発は重要である。
例えば、真のシグナルを弱める要因のひとつに、多重共線と同様の現象が寄与している可能性がある(Ueki & Kawasaki 2013 Comput Stat Data Anal)。
本研究において、グラフィカルモデルの一種である双方向グラフ上の最短経路を利用する遺伝関連解析法を開発した。
数値実験ならびにADNI(Alzheimer's Disease Neuroimaging Initiative)が公開している実際のGWASデータ適用により、周辺効果を検査する既存手法では検出できない隠れた遺伝的効果を特定できることが示された。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

Ueki M, Kawasaki Y, Tamiya G. Detecting genetic association through shortest paths in a bi-directed graph. Genet Epidemiol, To appear.

冨田誠,植木優夫.ゲノムデータ解析.統計学One Point (2016年09月)


研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

開催していない。

 

研究参加者一覧

氏名

所属機関

川崎 能典

統計数理研究所

佐藤 俊太朗

久留米大学大学院

中倉 章祥

久留米大学