平成242012)年度 一般研究1実施報告書

 

課題番号

24−共研−1014

分野分類

統計数理研究所内分野分類

b

主要研究分野分類

4

研究課題名

高次元希少事例サンプリングと統計的推定・機械学習への応用

フリガナ

代表者氏名

ワシオ タカシ

鷲尾 隆

ローマ字

Washio Takashi

所属機関

大阪大学

所属部局

産業科学研究所

職  名

教授

 

 

研究目的と成果(経過)の概要

 センシング技術,データ収集技術,ネットワーク技術の発達に伴い,科学技術及び日常生活の各方面で膨大な計測項目(測定変数)のデータからなる事例データが多数蓄積されるようになってきた.この状況において,大規模な構造事例をはじめとして非常に高次元なベクトルや行列・テンソルで表される事例からなるデータが増えている.このようなデータを統計や機械学習の手法によって解析する際,事例空間が広大であるため事例が非常に疎に分布し,解析に必要となる特定の条件を備えた事例が圧倒的に不足することが多い.このため解析の十分な精度や効率を達成できないことが多く,次元の呪いの問題として知られている.
 一方,近年,特に興味のある特定の条件を満たす事例のみをシミュレーションする,希少事例のモンテカルロシミュレーションやサンプリングの技術が発展してきている.従って,上記高次元事例の解析問題に対して,解析に必要となる特定の条件を備えた事例を生成・付加するためにこの技術を導入すれば,次元の呪いの問題を緩和することができると期待される.しかしながら,高次元事例空間において,このような目的のための希少事例のシミュレーションやサンプリングを行う技術の研究は十分とは言えない.
 本研究では上記の実現に必要となる(1)高次元希少事例のシミュレーションやサンプリングを行う技術の探究,(2)当該技術を用いた統計解析や機械学習における次元の呪い問題の緩和,を目的とした.
 この1年を通じた成果として、(1)では、所与のデータと背景知識から対象とする希少・特殊な条件に相対的に関係がある部分を確率的に抽出し、それに基づく統計的不確定性を減らす人工的標本データ生成(一種のブートストラップ)による学習を行う原理を探求した。(2)では、希少・特殊な条件時に有意な頻度分布を持つ標本の中で、元の確率的シミュレーションモデルの持つ相対的分布が正確に反映されるように標本生成する原理を探求した。そして,これら原理の検証として、人工的に確率的シミュレーションを行うモデル及び希少・特殊な条件を準備し、種々のパラメータを変えて各提案原理の精度と効率に関する計算機実験評価を行った。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

論文発表
Satoshi Hara, Yoshinobu Kawahara, Takashi Washio, Paul von Bunau, Terumasa Tokunaga, Kiyohumi Yumoto; Separation of stationary and non-stationary sources with a generalized eigenvalue problem, Neural Networks, 33, pp. 7-20, 2011.

学会発表
Kittitat Thamvitayakul, Shohei Shimizu, Tsuyoshi Ueno, Takashi Washio and Tatsuya Tashiro; Bootstrap confidence intervals in DirectLiNGAM, RIKD: Workshop on Reliability Issues in Knowledge Discovery, ICDM 2012. The IEEE International Conference on Data Mining, Dec., 2012

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。


 

研究参加者一覧

氏名

所属機関

伊庭 幸人

統計数理研究所