第50巻第1号3−15(2002)  特集「DNA配列の統計解析について」  [原著論文]

配列のホモロジーと統計情報を併用した
真核生物遺伝子構造の予測

産業技術総合研究所 後藤 修

要旨

近年大量のデータが作り出されているゲノム配列から,様々な有用情報を引き出すための第一歩は(特に蛋白質をコードする)遺伝子を同定することである.しかし,真核生物の遺伝子のほとんどはイントロンにより分断されているため,遺伝子領域を探索し,正確な遺伝子構造,すなわちエキソン・イントロンの配置,をゲノム配列から予測することは未だ難しい問題である.転写制御領域や翻訳領域(エキソンのうち蛋白質をコードする部分)における塩基出現頻度の偏りや,エキソン・イントロン境界配列の特徴を数値化し,ニューラルネット,判別分析,あるいは隠れマルコフモデルを用いて総合的に判断する方法がこれまでに開発され,かなりの成功を収めている.しかし,正確にエキソンを予測できる精度は塩基レベルで約75%とされ,いっそうの性能向上が望まれている.筆者は,上記のゲノム配列に関する統計情報に加え,既知のアミノ酸配列やcDNA配列との相同性を併用して,真核生物の遺伝子構造をより精度よく予測する方法を開発してきた.本稿では,この方法を中心に,最近の真核生物遺伝子構造予測法の進展について概説した.

キーワード:遺伝子構造予測,エキソン・イントロン,スプライシング,ゲノム情報,配列ホモロジー,アラインメント.

全文pdf閲覧前画面に戻る


第50巻第1号17−31(2002)  特集「DNA配列の統計解析」  [研究詳解]

分子進化速度のベイズ型階層モデル

東京大学 岸野洋久
North Carolina State University Jeffrey L. Thorne

要旨

進化の過程で生物は,進化速度とその変動の形で多様化と適応の痕跡をゲノムに残す.本稿ではまず,トウモロコシの栽培化における選択圧,ハワイにおけるsilversword群団の適応放散と調節遺伝子の加速化,ウイルスの免疫適応過程,遺伝子重複の運命など,最近の研究を簡単に紹介しながら,進化研究における速度変動の推定の持つ役割を確認する.続いて筆者らの提案した進化速度の確率変動を記述する階層モデルを紹介し,その性能を評価する.最後に,ゲノムデータベース解析における階層モデルの可能性を検討する.

キーワード:分子進化速度の確率変動,階層モデル,マルコフ連鎖モンテカルロ法,共進化の検出,複数遺伝子モデル,ゲノムデータベース解析.

全文pdf閲覧前画面に戻る


第50巻第1号33−44(2002)  特集 「DNA 配列の統計解析」  [研究詳解]

ブートストラップ法によるクラスタ分析の
バラツキ評価

東京工業大学 下平英寿

要旨

クラスタリングにおけるバラツキを確率値(p-value)として定量的に評価する 方法を解説する.もし仮に母集団からデータを何回もサンプルできるとすると, それをクラスタ分析した結果は観測値毎に異なる可能性がある.つまりクラスタ 分析の結果得られる樹状図やそれから導かれる群(クラスタ)はデータや特徴量 のサンプリングによるバラツキの影響を受けている.そこで観測値から得られた 結果がどれほど信頼できるのかを0から1の範囲の実数を値にとる確率値として表 現する.これはクラスタ分析という手法の性能評価をしているのではなく,デー タが本来持っている情報の不確実性を定量的に評価している.この方法はデータ が仮説を支持するかしないかを示す二値関数とブートストラップ法によるリサン プリングだけを使っているので,クラスタ分析に限らずかなり広いクラスの問題 に適用可能である.仮説を表す母数空間の領域の近似的に不偏な検定から確率値 は計算される.基礎となっているのはEfron(1985)とEfron and Tibshirani (1998)による符号付距離と曲率の理論である.これを実用的な手法にするためのアイデアがShimodaira(2000, 2002)のマルチスケールブートストラップ法であ る.生物のDNAから進化を推定する分子系統樹の問題を例題として取り上げる.

キーワード:クラスタ分析,ブートストラップ法,マルチスケールブートストラップ法,近似的に不偏な検定,分子系統樹.

全文pdf閲覧前画面に戻る


第50巻第1号45−68(2002)  特集「DNA配列の統計解析」  [研究詳解]

分子系統樹法の応用と現状の問題点
−真核生物の初期進化の解析を例として−

統計数理研究所 橋本哲夫
総合研究大学院大学 有末伸子
統計数理研究所 長谷川政美

要旨

DNAやRNAの塩基配列や蛋白質のアミノ酸配列のデータに基づき,生物の進化系統樹に対する推論を最尤法の枠組みで行うための方法論の概略を述べ,真核生物の初期進化の問題に対するデータ解析の実例を示した.その中で,分子系統樹の推論を誤らせる最も大きな要因として最近注目を集めているLong Branch Attraction アーテファクトについて実例に則して解説した.さらに,それを克服するための手法として,座位間の進化速度の不均質性をΓ 分布の導入により考慮した解析を実例に対して試み,この方法の有効性を示した.その結果,以前のいくつかの分子種の解析で真核生物の根もと近くから分岐するとされていた微胞子虫の位置づけは,解析に用いた分子種において微胞子虫の進化速度が極端に大きいことに伴うLong Branch Attraction アーテファクトであったとの可能性の高いことが明らかとなった.さらに,現在利用しうる全ての分子種のデータに基づいて総合評価の解析を試みると,微胞子虫が真菌に近縁であることが明確に示された.

キーワード:分子系統樹の最尤推定,Long Branch Attraction,座位間の進化速度の不均質性,Γ 分布,真核生物の初期進化,微胞子虫.

全文pdf閲覧前画面に戻る


第50巻第1号69−85(2002)  特集「DNA配列の統計解析」  [研究詳解]

分子系統樹推定におけるモデルの
ミススペシフィケーション
−脊椎動物の系統進化を例として−

統計数理研究所 曹纓
統計数理研究所 長谷川政美

要旨

分子系統樹の推定は,仮定したモデルに依存する.このモデルは,進化過程におけるDNAの塩基置換や蛋白質のアミノ酸置換に関するものである.しかしモデルが現実的なものでない場合,偏った系統樹推定が行なわれる可能性がある.本稿では,脊椎動物の分子系統学的研究でみられる,このような置換モデルのミススペシフィケーションに関わる問題を,実例を通じて紹介する.

キーワード:分子系統樹推定,置換モデル,最尤法,モデルのミススペシフィケーション,脊椎動物進化.

全文pdf閲覧前画面に戻る