第56巻第2号169−184(2008)  特集「データマイニングと統計数理」  [原著論文]

遺伝子発現データからの接尾辞木に基づく疑似バイクラスタ抽出

北海道大学大学院 難波 徹郎
北海道大学大学院 原口 誠
北海道大学大学院 大久保 好章

要旨

本研究では,遺伝子発現データをはじめとする,時系列データを対象としたバイクラスタリングについて考察する.時系列性を考慮したバイクラスタリングでは,通常,データ行列の行と列を同時にクラスタリングすることで,ある連続した時間区間において同様の変動を示す個体群を極大バイクラスタとして抽出する.特に,接尾辞木を利用することで,これらはデータ行列サイズの線形オーダで抽出可能なことが知られている.本研究ではこの枠組を拡張し,生物学的により興味あるバイクラスタの抽出を目指す.具体的には,疑似バイクラスタの概念を導入し,ある時間区間まで同様な発現変動を示す遺伝子群が,その後枝分かれをして異なる変動を示す様子を捕まえることを試み,こうした疑似バイクラスタを接尾辞木を用いて抽出する多項式時間アルゴリズムを提案する.ホヤの遺伝子発現データを用いた計算機実験により,期待した様子が観察可能な疑似バイクラスタが得られることを確認する.

キーワード:バイクラスタリング,疑似バイクラスタ,接尾辞木,遺伝子発現データ,時系列データ.


第56巻第2号185−198(2008)  特集「データマイニングと統計数理」  [研究ノート]

幾何データからのGeometric Algebraを用いた特徴抽出

名古屋大学大学院 Pham Minh Tuan
名古屋大学大学院 橘 完太
福井大学 Eckhard Hitzer
Institut für Informatik, Christian-Albrechts-Universität zu Kiel Sven Buchholz
名古屋大学大学院 吉川 大弘
名古屋大学大学院 古橋 武

要旨

従来のデータマイニングにおけるパターン認識では,空間的な特徴を含むデータに対しても幾何的な性質を考慮せずに特徴を抽出する.本研究では,複素数や四元数の一般形であるGeometric Algebraが持つ,空間的な物体や物体間の関係を簡潔に記述できるという長所を活かして,データの空間的な特徴を抽出する.本稿では,空間ベクトルの系列で与えられるデータからの特徴抽出について,Geometric Algebraを用いる系統的な手法を提案する.そして,データが幾何的な特徴を持つ手書き文字の分類問題について,提案手法により従来は偶然または経験的にしか発見・注目できなかった特徴を抽出でき,分類精度および頑健性が向上することを示す.

キーワード:Geometric Algebra,特徴抽出,混合正規分布モデル,混合エキスパート,パターン認識,手書き数字分類.


第56巻第2号199−213(2008)  特集「データマイニングと統計数理」  [研究ノート]

スーパーマーケットにおける顧客動線分析と文字列解析

関西大学 矢田 勝俊

要旨

本研究の目的は,顧客動線分析へ文字列表現を導入することで,文字列解析技術の適用可能性を検討し,その技術的な課題を明らかにすることである.実験ではRFID技術を用いて収集した小売業における顧客動線データに文字列解析技術を適用し,有用な知見の抽出を試みた.顧客動線データにおいて,我々は顧客の売場への立ち寄りに焦点を当て,売場訪問パターン文字列を生成し,買上数量の多い顧客の訪問パターンの特徴を明らかにした.そして実験を通して,顧客動線分析における文字列解析技術の課題などを明らかにすることができた.本論文では,顧客動線分析における文字列表現の適用可能性を指摘することができた.

キーワード:スーパーマーケット,マーケティング,RFID,文字列解析,EBONSAI.


第56巻第2号215−224(2008)  特集「データマイニングと統計数理」  [原著論文]

通信路推定と誤り訂正による衛星デジタル放送移動受信の改善

総合研究大学院大学 浜田 正稔
統計数理研究所 池田 思朗

要旨

本論文では,衛星デジタル放送の移動体における受信の問題を扱う.現在,衛星デジタル放送では移動体においては固定局と同様なシステムでは満足な受信はできない.この問題に対して,通信路の確率モデルを考え,その推定を行ない,確率モデルに基づく推論を行なうことで受信品質の改善を目指す.本稿で提案する通信路モデルは重回帰モデルである.パラメータ推定に対しては,二つの方法を提案する.放送受信では実時間処理が重要であることから,本提案手法は実時間で処理できる簡便なものである.提案する手法は実際に自動車を走行させて計測したデータによって実験を行ない,どの程度の受信品質の改善が得られるのか検証を行なった.

キーワード:通信路モデル,通信路モデルのパラメータ推定,符号語の確率推論.


第56巻第2号225−234(2008)  特集「データマイニングと統計数理」  [研究ノート]

Merging Particle Filterとその特性

統計数理研究所/科学技術振興機構 中野 慎也
統計数理研究所/科学技術振興機構 上野 玄太
統計数理研究所/科学技術振興機構 中村 和幸
統計数理研究所/科学技術振興機構 樋口 知之

要旨

逐次データ同化への応用が検討されつつある手法の一つにparticle filterがあるが,この手法はアンサンブルの縮退という問題が起こるために高次元の問題に対してはあまり有効に機能しない.そこでこの問題を回避するために merging particle filter(MPF)という手法が提案された.MPFにおいて,フィルタ分布を表現するアンサンブルの構成粒子は,予測分布を表現するアンサンブルから抽出した複数のサンプルの重みつき和によって生成する.このとき,フィルタ分布の平均と共分散が保存されるよう適切に重みを与える必要があるが,その与え方には任意性がある.本研究では,重みの与え方によってMPFの性質がどう変化するかを調べるために,2種類の重みの与え方のもとでデータ同化実験を行った.その結果,低次元のモデルに対しては,重みのうちの一つを1に近い値に,その他を0に近い値にした方が基本的に精確な推定ができるが,比較的次元の高いモデルに対しては,そのような重みの設定では,アンサンブルを構成する粒子の数を多くしないとよい推定が得られないことがわかった.

キーワード:データ同化,particle filter,merging particle filter.


第56巻第2号235−252(2008)  特集「データマイニングと統計数理」  [研究ノート]

歴史統計を利用した天然痘伝播の定量的分析:統計疫学モデルを動機とするデータベース構築について

ユトレヒト大学 西浦 博

要旨

稀にしか観察されない感染症の流行対策を計画する場合,過去の膨大な統計資料から疫学的および生物学的に重要な情報を抽出する作業が欠かせない.天然痘は人類が唯一根絶に成功した感染症であるが,根絶を逆手に取って天然痘ウイルスがバイオテロに用いられる可能性が危惧されている.本稿では,歴史統計を利用した具体的事例として,天然痘の伝播に関する定量的研究の方法について報告する.特に,天然痘の統計疫学モデルを動機としたメタデータのニーズと,対応するデータベースの構築を中心に議論する.単純な統計モデルの例として,検疫および隔離の最適化およびバイオテロ発生時の被害規模予測について,歴史統計の選定から意思決定に至るまでの研究手法を解説する.また,データベースの改善点および歴史統計を利用する上での疫学的問題についてまとめる.

キーワード:歴史統計,データベース,天然痘,疫学,モデル,バイオテロリズム.


第56巻第2号253−258(2008)  特集「データマイニングと統計数理」  [研究ノート]

納度の概念の利用について

統計数理研究所 赤池 弘次

要旨

観測値に基づく統計的モデルの評価として対数尤度を利用することにより,モデルの比較選択の実用化が促進された.しかし従来のモデルの利用は与えられたデータに対する既知の構造の当てはめに止まり,モデルの構成法の議論は展開されていない.統計的思考法を科学的推論展開のための方法として発展させるには,言語によるモデル構成の方法論の議論が必要である.

この論文では,言語によるモデル構成の必然性と,その過程で得られるモデルの比較評価の規準としての納度(のうど)の利用を,ゴルフスイング動作解析の具体例によって説明する.

キーワード:モデル,likelihood,尤度,情報量規準,AIC,plausibility,納度,ゴルフスイング動作.