第54巻第2号211−222(2006) 特集「予測と発見」 [研究詳解]
要旨
統計力学的アンサンブルを再現する計算機シミュレーション法にマルコフ連鎖モンテカルロ法があるが,この手法は普通ボルツマン因子に基づいて状態を発生させ,温度一定のカノニカルアンサンブルを実現する.しかし,系の自由度の数が大きいとき,エネルギー極小状態が無数に存在するとともに,それらの間に高いエネルギー障壁が存在するため,シミュレーションがそれらエネルギー極小状態に留まってしまって,低温における正確なカノニカルアンサンブルを再現するのは困難である.この困難を克服するために開発されたのが,拡張アンサンブル法と総称されるシミュレーション手法である.拡張アンサンブル法は非ボルツマン因子に基づいて,エネルギー空間上の1次元酔歩を実現することによって,エネルギー極小状態に留まるのを避ける.ここでは,拡張アンサンブル法の一つである,レプリカ交換法とその一般化版について解説する.そして,具体例として,レプリカ交換モンテカルロ法を膜タンパク質の立体構造予測問題に適用した結果を紹介する.
キーワード:拡張アンサンブル法,レプリカ交換法,膜タンパク質,膜貫通へリックス,タンパク質の立体構造予測.
第54巻第2号223−245(2006) 特集「予測と発見」 [総合報告]
要旨
熱帯太平洋での主に気候変動に関連した海洋データ同化に関する研究の現状について報告する.海洋の現実の状態(海況)を知るために行われた研究の他に,縮小近似の方法,誤差評価・診断,観測システムの設計と評価についても簡略に報告する.
キーワード:データ同化,熱帯太平洋,気候変動.
第54巻第2号247−264(2006) 特集「予測と発見」 [総合報告]
要旨
大規模な地球流体推定問題の先駆例として,日本海のデータ同化・予報モデルを構築した.高解像度の海洋循環モデルに各種観測データを適切に反映させるため,現実的な計算量で精度を確保できる同化手法を開発した.海面の風応力や熱収支の時空間変化だけでなく,海底地形も制御した結果,日本海表層から亜表層の水温や流動場をかなり現実的に再現することができた.予報結果は,流出重油やエチゼンクラゲの漂流計算にも利用されている.
キーワード:日本海,海洋循環モデル,衛星観測データ,データ同化,海況予報.
第54巻第2号265−280(2006) 特集「予測と発見」 [原著論文]
要旨
本論文では,日本海における海面水温と光合成有効放射照度とが植物プランクトンの時空間動態に与える動的なメカニズムについて,時空間統計モデルを構築することによって考察している.上記の海洋環境要因の観測データが持つ空間構造は,約140km程度までの空間変動が影響し,その時間的変化についてはクロロフィル$a$濃度と光合成有効放射照度は季節性の強い変動と見なせることが明らかとなった.これらの特徴を考慮に入れて,植物プランクトンの時空間動態を表現するためのモデルを開発し,その合理性を検証するために予測精度の評価を行った.
キーワード:植物プランクトン,人工衛星,日本海,時空間統計モデル.
第54巻第2号281−297(2006) 特集「予測と発見」 [総合報告]
要旨
本論文は,地震の確率予測をする新しい手法とそれを適用した例の総合報告を行う.パターンインフォマティクス(Pattern Informatics: PI)と呼ばれるこの手法により,大きい地震が将来の10年以内に起きやすいと期待される地域を示す予測地図を作成することが出来る.これまで我々は,PI法を用いて,日本及びカルフォルニアの地震予測を行ってきた.さらに,全地球規模での地震予測にもPI法を適用してきた.本稿で総合的に報告される成果を地球物理学的観点からも若干議論し,PI法が実効性のある地震の中期予測(数週間から10年の誤差を持って地震の予測すること)の手法として有望であることを示す.
キーワード:予測,地震,地震活動,パターンインフォマティクス.
第54巻第2号299−314(2006) 特集「予測と発見」 [研究詳解]
要旨
IT技術の飛躍的発展とインターネットの普及により,これまで以上に社会における知識の循環が可能になると期待されている.そのために情報技術が果たす役割は大きい.我々は現在,社会的問題として深刻な子供の事故を予防するための情報技術として,知識循環型の事故サーベイランスシステムの研究を進めている.これはまず社会で実際に起きている事故の情報を大量に収集し,かつその発生メカニズムや関係性,子供の行動などを明示的な知識としてモデル化し,計算機上でシミュレート可能,事故の発生確率を定量的に予測可能にすることで,有効な対策や政策の提言に寄与するものである.本稿ではこの事故サーベイランスシステムの構想と,これにより集められる事故履歴データから確率モデルを構築し,それによりリスク評価や安全対策に寄与する知識を抽出し,活用する各要素技術の概要についても紹介する.
キーワード:ベイジアンネット,統計的学習,確率推論,事故予防,ヒューマンモデリング.
第54巻第2号315−331(2006) 特集「予測と発見」 [総合報告]
要旨
本報では,はじめにデータマイニング分野において近年盛んに研究されているグラフマイニングの背景,研究経緯,関連研究等を概観し,次に部分グラフのクラス,部分グラフ同型問題,正準ラベル,マイニングの基準など,グラフマイニングを理解する上で重要な幾つかの基礎概念を説明する.更に,そこで必要とされる多頻度アイテム集合や多頻度グラフの探索原理と代表的手法について解説する.最後に,マイクロアレイ遺伝子発現プロフィールデータから遺伝子発現関係をベイジアンネットワークで同定した結果に,更にグラフマイニングを適用して各遺伝子発現の依存関係に関する知見を得る解析を報告し,統計的モデリングへの応用可能性について述べる.
キーワード:グラフマイニング,部分グラフ同型問題,Downward Closure Property,多頻度グラフ,ベイジアンネットワーク.
第54巻第2号333−356(2006) 特集「予測と発見」 [研究詳解]
要旨
細胞内で生成されるタンパクは生物の主要な構成要素であり,遺伝子はその設計図に相当する.遺伝子がタンパクに変換される時期・量の制御も遺伝子の働きによるものであり,生物は遺伝子同士が協調して作用することによって生命を維持している.このような遺伝子間の依存関係を,頂点と枝から構成されるグラフを用いて表現したものを遺伝子ネットワークという.近年のマイクロアレイ技術の発展により,細胞内の遺伝子の活動状態を網羅的に観測できるようになり,遺伝子発現データとして蓄積されている.遺伝子発現データに基づく遺伝子ネットワークの推定問題は,バイオインフォマティクスにおいて最も重要な課題の 1 つと考えられる.遺伝子ネットワークの推定問題は,遺伝子の発現量を確率変数として見なすことにより,グラフィカルモデルの推定問題として定式化される.しかし,ネットワークに含まれる遺伝子は一般に数百以上と多く,そのためモデルに含まれるパラメータの数は膨大となる.したがって,発現データへの過適合を避けるためのモデリングの方法論を構築することが必要不可欠といえる.本稿ではこのような問題を解決するための方法として,著者らが開発した 2 つ の異なるアプローチによる遺伝子ネットワーク推定手法について解説する.1 つは同一の遺伝子から直接の制御を受ける遺伝子の DNA配列上流領域に共通の制御配列が存在することに着目し,共通配列探索と発現データを組み合わせた方法.他方は 2 種類の異なる生物種の遺伝子ネットワークを,両種に進化的に保存されている情報を互いに利用しながら同時に推定する手法である.両手法は,ベイジアンネットワークを遺伝子ネットワークのモデルとして用い,ネットワークをグラフ構造の事後確率最大化に基づいて推定する.その際,配列情報および進化情報をネットワークの事前確率を構成するために用いることが特徴となっている.開発した手法はシミュレーションおよび実データへの適用を通してその有効性を確認した.
キーワード:遺伝子ネットワーク,遺伝子発現データ解析,制御配列,進化情報,ベイジア ンネットワーク.
第54巻第2号357−373(2006) 特集「予測と発見」 [研究詳解]
要旨
本研究では,様々なゲノム関連データから,高次の生物学的機能を表すタンパク質間ネットワークを予測する手法を開発した.この方法の独自性は,教師付き学習の枠組においてネットワーク推定を行なう点と複数のデータ統合の点にある.カーネル正準相関分析を用いて,遺伝子情報を表すゲノムデータとタンパク質間ネットワークの相関モデルを構築し,それを応用して新規のタンパク質間ネットワークを予測する方法を提案した.実際の適用例として,出芽酵母のタンパク質間の機能ネットワークを,マイクロアレイ遺伝子発現情報,酵母2ハイブリッドシステムによる相互作用情報,タンパク質の細胞内局在情報,系統プロファイルの4種類のデータから予測した.クロスバリデーションによる性能評価の結果,我々の提案する複数のデータの統合と教師付き学習の効果によって,先行研究の方法よりも予測精度が著しく向上することが確認できた.そこで,全てのタンパク質セットに対して提案手法を適用し,網羅的なネットワークを推定することによって,未知のタンパク質間の機能的な関係を予測した.
キーワード:カーネル法,正準相関分析,グラフ推定,ゲノムデータ,タンパク質間ネットワーク.
第54巻第2号375−403(2006) 特集「予測と発見」 [総合報告]
要旨
最尤法の欠点を補うために最小ダイバージェンス法のクラスが提示されているが,その統計的性能について総合報告する.ゲノムデータ解析のための統計的方法の基本課題からSNP,マイクロアレイ,プロテオームを含む幾つかのデータの統計解析の問題点が考察され,その一つのアプローチとして最小ダイバージェンス法の適用について紹介する.
キーワード:U-ダイバージェンス,U-モデル,U-ロス関数,遺伝子発現,ロバスト,情報幾何.
第54巻第2号405−423(2006) 特集「予測と発見」 [総合報告]
要旨
医学・生物学では,遺伝子発現量に関する大量のデータに対してこれまで様々な方面から統計的解析が試みられてきた.こうした研究はチキンレースのようなものであり,「データから言いたいこと」をきちんと主張したいが,「データから言えること」の境界を超えてはいけない.とくに細胞診断のための教師付き解析では,実際に結論にバイアスを入れて言い過ぎの境界を踏み超えてしまう解析研究が多かった.本解説では,ここまでの歴史の流れを追いながら,主に遺伝子発現量に基づく細胞病理診断の問題において遺伝子発現データの解析者がはまりやすい落し穴について紹介し,我々がその落し穴を避けつつ行ってきた解析研究についての解説を行う.近年ではこうした保守的な考えかたが拡がるとともに,一方では遺伝子発現情報をフル活用しつつなおかつ境界は踏み超えない積極的な手法が現れ始めた.こうした巧妙な手法の紹介を通して今後への明るい展望と残された課題についても議論する.
キーワード:遺伝子発現解析,教師付き学習,教師付き特徴選択.
第54巻第2号425−444(2006) 特集「予測と発見」 [原著論文]
要旨
インターネットが広く普及した現在,ネットワークトラヒックを分析してこれをネットワーク管理に役立てることが重要となってきている.その分析の一方法として,ネットワークトラヒックをトレンド,1週間周期の変動,1日周期の変動,および有色雑音成分に分解するベイズ型時系列モデルを用いる方法を提案する.提案法で用いるモデルは,これらの成分ごとのシステム方程式と,各成分の和をネットワークトラヒックとする観測方程式とから成る線形ガウス型状態空間モデルで表現される.カルマンフィルタによる状態推定により各成分が求まる.モデルに含まれる分散やAR係数のパラメータは,尤度の最大化により定める.またモデル間の比較や各成分の要不要の決定は,AIC(赤池情報量規準)に基づいて行う.提案法によるネットワークトラヒックの分析例として,法政大学小金井キャンパスのダイアルアップアクセス,および法政大学とSINETを結ぶネットワークに対して成分分解を行った結果について報告する.
キーワード:ネットワークトラヒック,成分分解,ベイズ型時系列モデル,状態空間モデル,カルマンフィルタ.
第54巻第2号445−459(2006) 特集「予測と発見」 [原著論文]
要旨
本稿では,存続時間分析を利用して美容院顧客の来店行動を特定化し,来店確率の予測を行う.具体的には,ヘアカット,ヘアカラー,パーマネントウェーブの各サービスを受ける顧客の来店意欲(intensity)をCoxモデルで推定し,次回来店者数の予測を行った.結果,カットの来店確率は個人の属性や髪に対する選好の差を考慮したCoxモデルで予測でき,カラーとパーマに関しては,来店確率の予測に個人の属性や質の考慮が必要なかった.来店確率を一定精度で予測できたことは,誰が,いつ,何を施術するのかという美容院の経営上最も重要な情報が得られることを意味する.これはミクロベースの売上予測,薬剤の在庫管理,スタッフの人員配置などに利用可能である.応用例として,存続時間分析でもマーケティング分析でも本質的な問題である,打ち切りデータや店離れした客の判断も統計的根拠を持って行えることを示した.またダイレクトメールを送付する際は,ヘアカラーの割引券が売上増加に効果的である.
キーワード:Coxモデル,美容院,来店確率の予測.
第54巻第2号461−480(2006) 特集「予測と発見」 [総合報告]
要旨
直接伝播する感染症の数理疫学的研究に関して,特に流行の統計データを用いた予測と関連する推定について定量的な評価手法と考え方を総説する.予測を実施するためには伝播能力と感染待ち時間や感染性期間などに関する情報を詳細に得ておく必要がある.感染症数理モデルの多くは個体群動態に基づいて構築され,特に流行予測やモデルに基づくパラメータ推定を実施する場合は推定値の精度やデータの変動を考慮した計数過程を想定した推定量が用いられる.観察されたデータに基づく基本再生産数・効果的再生産数の推定手法および内在性の各想定の意味について詳述する.また,個体内の病理が緩徐に進行するHIV/AIDSやBSEのような感染症に関して潜伏期間の統計分布が得られれば,発症した症例数を基に逆計算法を使用して感染者数を推定することが可能であり,それによって得られる短期予測の基本的構造を紹介する.実際の流行データに見られる伝播は感受性や接触頻度の異質性などを主な理由として均一性の想定が困難なため,マルチタイプの流行など,対象とする感染症の生物学的および疫学的特徴とデータ特性に応じたモデル構築および推定手法選択が必要である.どの手法を用いた場合でも,「感染症がどのような振る舞いで流行するのか」を考慮した内在性の想定とその妥当性が定量的研究による予測値・推定値の鍵となる.
キーワード:感染症,数理モデル,基本再生産数,最尤推定法,マルチンゲール法.
第54巻第2号481−510(2006) 特集「予測と発見」 [原著論文]
要旨
本稿では,入れ子型の複数の線形時系列モデルにおいて,予測の平均二乗誤差(Prediction Mean Squared Error, PMSE)を基準にモデル選択を行う問題を考える.まず,標本の大きさに依存する局所的な母数空間において,入れ子構造になっている2つのモデルを考えた.そしてそれぞれ母数を推定したとき,2つのモデルによる予測量のPMSEの意味での相対的な良さがある不等式で与えられ,その不等式はワルド統計量を用いた不等式で近似的に求められることを発見した.そこで簡単なモデルを帰無仮説,複雑なモデルを対立仮説とする検定でワルド統計量等の古典的検定統計量の漸近的性質を導き,さらにHosoya(1984, 1986, 1989)の提唱する一般化尤度比検定を用いたモデル選択法を提案した.ただし棄却点は,自由度と非心度が同じ整数値の非心カイ2乗分布により決まる.このモデル選択法は,簡単なモデルの方がPMSEの意味で優れているのに複雑なモデルを選択する誤り,検定で言うところの第1種の過誤をコントロールしながらモデル選択を行える.またこのモデル選択法の枠組みから,すでに実用化されているモデル選択法であるAIC(Akaike's Information Criterion)の解釈を与えた.
キーワード:一般化尤度比検定,AIC,非心カイ二乗分布,線形時系列,PMSE,多重検定.
第54巻第2号511−523(2006) 特集「予測と発見」 [研究詳解]
要旨
計算論から見たランダムネスの研究として,無限列のランダムネスを定義したマーチンレフ・ランダムネス,そして有限列のランダムネスを定義したコルモゴロフ・ランダムネスと,その関係について解説する.また,コルモゴロフ記述量の研究の応用として,最近提案された情報距離とその簡易版を紹介する.
キーワード:計算論,コルモゴロフ記述量,無限列のランダムネス,有限列のランダムネス,情報距離.