平成252013)年度 一般研究2実施報告書

 

課題番号

25−共研−2048

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

複雑データの解析法に関する研究

フリガナ

代表者氏名

ヤドヒサ ヒロシ

宿久 洋

ローマ字

Yadohisa Hiroshi

所属機関

同志社大学

所属部局

文化情報学部

職  名

教授

配分経費

研究費

40千円

旅 費

343千円

研究参加者数

16 人

 

 

研究目的と成果(経過)の概要

近年,計算機やインターネットといった情報機器等の発展に伴い,データが大規模化すると同時に複雑データを扱う必要に迫られている.ここでいう複雑データとは「データ点」や「データ形式」がそれぞれ「1つの値」や「多変量データ」等でそれぞれ表現することができないデータ,もしくは個体間や変量間に構造を仮定したデータである.その中には「シンボリックデータ」(Diday, 1998)や「多相多元データ」などが挙げられ,既存のデータ解析手法では適用困難な場合が存在する.ここで,「シンボリックデータ」とはデータの表現を一般化した概念であり,データ点として区間値,多値,modal値など,より複雑な記述を許し,かつ個体間や変量間に対して構造を仮定するようなデータである.また,「多相多元データ」とはデータ形式を一般化した概念であり,データ形式として同一個体群,同一変量群に関して異なる条件下で観測された「3相3元データ」や同一個体群間の(非)類似度データが複数の異なる条件下で観測された「2相3元データ」など,より複雑な形式を許すデータである.
このような複雑データに対しては,従来の手法では適用が困難もしくは情報損失が生じる場合が存在する.特に本研究では以下のような状況に着目することにする.
(1) 特に個体数が膨大な大規模多変量データ,もしくは各トランザクションに一つの事象が逐次記録されている大規模データから興味がある「concept(集団)」もしくは「個体」に関するデータを作成する状況
(2) 各トランザクションに一つの事象が逐次記録されている大規模データから異なる状況を考慮するために,多相多元データを作成する状況
(3) 1次データとして「シンボリックデータ」や「多相多元データ」が与えられる状況
(4) (1)と(2)を同時に考慮する状況
(1)の状況では「1つの値」によって縮約してしまうと個体の上位概念である各conceptのバラツキ等の情報を損失してしまうが,シンボリックデータではバラツキ等の情報の損失を抑えてデータを記述することが可能である.(2)の状況では通常の解析手法では各条件を考慮して分析を行うため,多相多元データ解析を適用する必要がある.
 これまでの研究を通して,(1)「シンボリックデータ」や「多相多元データ」などに対する解析法の調査を進めており,主に先述した(1)(2)(3)(4)の状況を考慮しつつ,i) シンボリックデータの解析法および多相多元データの解析法についての理論的研究を行うことを目的として研究を行った.
 主の研究成果として,シンボリックデータ解析法については,candlestick値データに対する多次元尺度構成法の提案を行った.多相多元データ解析については,3元データに対するsubspaceクラスタリング法,量質混合3元データに対するクラスタリング法,3相3元データの視覚化法などの提案を行った.研究成果の詳細については,次の「当該研究に関する情報源」にまとめる.




 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

<シンボリックデータ解析法>
[1] Yamashita, Y. and Yadohisa, H. (2013): MDS for series data by using candlestick valued dissimilarity measure, the 78th annual meeting of the psychometric society, Arnhem, the Netherlands.

<多相多元データ解析法>
[2] Takagishi, M., Hirotsuru, K., Kusaka, T., Mitsuhiro, M. and Yadohisa, H. (2013): Educational feature extraction across nations using UNdata, Proceedings of Joint meeting of the IASC satellite conference for the 59th ISI WSC and the 8th conference of the asian regional section of the IASC, Seoul, Korea, p429-p431, (IASC Data Analysis Competition Award).

[3] Tanioka, K. and Yadohisa, H. (2013):Three-Mode Hierarchical Subspace Clustering with Noise Variables and Occasions, German-Japanese Interchange ofData Analysis Results (W, Gaul et al. eds), Springer, Heidelberg, p91-p99.

[4] Mitsuhiro, M. and Yadohisa, H. (2013): Multiple Correspondence Analysis for Mixed Measurement Level Data, European Conference on Data Analysis 2013, Luxembourg, Luxembourg.

[5] Umei, T. and Yadohisa, H. (2013): Non-hierarchical clustering algorithm for mixed numerical and categorical three-way three-mode data, conference of the International Federation of Clasifidation Societies, Tilburg, the Netherlands.

[6] Tanioka, K. and Yadohisa, H. (2013): Ultrametric tree representation for three-way three-mode data with weights of variables and occasions, conference of the International Federation of Clasifidation Societies, Tilburg, the Netherlands.

[7] Mitsuhiro, M. and Yadohisa, H. (2013): Simultaneous Fuzzy Clustering with Multiple Correspondence Analysis, the 59th World Statistics Congress of the ISI, Hong Kong, China.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

テーマ:複雑データ解析法に関する研究会
日 時:2014年2月17日13時〜18時
場 所:統計数理研究所 会議室1
参加人数:25名

 

研究参加者一覧

氏名

所属機関

足立 浩平

大阪大学

有重 文平

同志社大学

池本 大樹

大阪大学

大森 崇

同志社大学

高木 育史

同志社大学

高橋 諒

大阪大学

谷岡 健資

同志社大学

田村 義保

統計数理研究所

寺田 吉壱

大阪大学

波多野 賢治

同志社大学

深川 大路

同志社大学

水田 正弘

北海道大学

光廣正基

同志社大学

南 弘征

北海道大学

山本 倫生

京都大学