平成252013)年度 重点型研究実施報告書

 

課題番号

25−共研−4301

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

ビッグデータ解析における集約的シンボリックデータのクラスタリング手法の応用

重点テーマ

ビッグデータの統計数理

フリガナ

代表者氏名

シミズ ノブオ

清水 信夫

ローマ字

Shimizu Nobuo

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

助教

配分経費

研究費

40千円

旅 費

88千円

研究参加者数

6 人

 

研究目的と成果(経過)の概要

 近年、IT技術の進歩により大規模化かつ多様化したデータが様々な分野で多数出現し、それらを解析する需要が増大している。このような需要に応えることを目的として様々な技術や解析手法が提案され実用化されており、それらを総称してビッグデータ解析という概念が定義されている。
 一方、従来の数値データやカテゴリカルデータのみならず、区間データ・ヒストグラムデータ・分布値データなど、近年新たに多く出現している様々なタイプのデータをも一般化して表現する枠組みとして、フランスのDiday教授により提案されているシンボリックデータ(SD)がある。SDの解析手法については、既存の統計的解析手法の拡張などを含め多数提案されており、これらはシンボリックデータ解析(SDA)として現在も研究が進められている。
 ビッグデータの解析にあたり、研究代表者らは、個々のオリジナルデータそのものではなくその中の各グループに関して得られた情報に興味が持たれている状況において解析を行うために、グループに対し集約的シンボリックデータ(ASD)という概念を導入した。研究代表者らは、数値データのみで表現されるデータがいくつかにグループ化されている場合について、これらのグループデータであるASDを確率分布として表現し、その分布を近似的に表現した統計量(平均・分散共分散行列など)をも新たなデータとして解析する手法を提案している。また、この場合におけるASDのクラスタリングについてはEMアルゴリズムの利用が有効であることも示しており、データ解析手法の拡張に寄与している。
 本研究においては、それらに加えて数値データ以外のデータ型が含まれるようなデータがグループ化されている場合においてもASDの定義方法や有効なクラスタリング手法などについての研究を進め、ビッグデータ解析の更なる発展を目的とする。
 本年度は、数値データのみからなるデータ集合におけるASDのクラスタリングに関し、混合正規分布モデルを用いる手法およびASD間の非類似度を用いる手法を提案し、大規模な実データに対する適用例を示した。今後は、カテゴリカルデータが含まれるようなデータ集合に対してもASDを定義し、それらのクラスタリングを行う手法を提案したい。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

口頭発表および予稿集等

1. Nakano, J. and Shimizu, N.: Clustering Based on Gaussian Mixture Model for Aggregated Symbolic Data, Proceedings of Joint Meeting of the IASC Satellite Conference for the 59th ISI WSC and the 8th Conference of the Asian Regional Section of the IASC (IASC-ARS), pp. 299-303, 2013.8.23, Yonsei University, Seoul, Korea.

2. 清水信夫、中野純司: 集約的シンボリックデータの非類似度、2013年度統計関連学会連合大会講演報告集、p63、2013.9.9、大阪大学豊中キャンパス(大阪府豊中市)

3. 清水信夫、中野純司: 混合正規分布を用いた集約的シンボリックデータのクラスタリング、科研費シンポジウム「高次元データ解析の理論と方法論、及び、関連分野への応用」講演予稿集、pp. 45-50、2013.11.26、筑波大学つくばキャンパス(茨城県つくば市)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

統計数理研究所共同利用研究 重点テーマ3「ビッグデータの統計数理」に関する研究会(2013.12.2 13:20-17:15、統計数理研究所 セミナー室5(D313)、30人)

 

研究参加者一覧

氏名

所属機関

谷岡 健資

同志社大学

寺田 吉壱

大阪大学

中野 純司

統計数理研究所

宿久 洋

同志社大学