平成262014)年度 重点型研究実施報告書

 

課題番号

26−共研−4205

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

ビッグデータ解析における集約的シンボリックデータのクラスタリング手法の応用

重点テーマ

ビッグデータの統計数理

フリガナ

代表者氏名

シミズ ノブオ

清水 信夫

ローマ字

Shimizu Nobuo

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

助教

配分経費

研究費

40千円

旅 費

82千円

研究参加者数

8 人

 

研究目的と成果(経過)の概要

 近年、IT技術の進歩により大規模化かつ多様化したデータが様々な分野で多数出現し、それらを解析する需要が増大している。このような需要に応えることを目的として様々な技術や解析手法が提案され実用化されており、それらを総称してビッグデータ解析という概念が定義されている。
 一方、従来の数値データやカテゴリカルデータのみならず、区間データ・ヒストグラムデータ・分布値データなど、近年新たに多く出現している様々なタイプのデータをも一般化して表現する枠組みとして、フランスのDiday教授により提案されているシンボリックデータ(SD)がある。SDの解析手法については、既存の統計的解析手法の拡張などを含め多数提案されており、これらはシンボリックデータ解析(SDA)として現在も研究が進められている。
 ビッグデータの解析にあたり、研究代表者らは、個々のオリジナルデータそのものではなくその中の各グループに関して得られた情報に興味が持たれている状況において解析を行うために、グループに対し集約的シンボリックデータ(ASD)という概念を導入した。
研究代表者らは、数値データのみで表現されるデータがいくつかにグループ化されている場合について、これらのグループデータであるASDを確率分布として表現し、
その分布を近似的に表現した統計量(平均・分散共分散行列など)をも新たなデータとして解析する手法を提案している。また、この場合におけるASDのクラスタリングについてはEMアルゴリズムの利用が有効であることも示しており、データ解析手法の拡張に寄与している。
 本研究においては、それらに加えて数値データ以外のデータ型が含まれるようなデータがグループ化されている場合においてもASDの定義方法や有効なクラスタリング手法などについての研究を進める。そして、それらの手法の利用による解析結果について表示および考察を行い、ビッグデータ解析の更なる発展を目的とする。
 本年度は、連続変数として表されるデータ(数値データ)とカテゴリー変数として表されるデータ(カテゴリカルデータ)が混在するデータ集合の場合について、数値データを離散化して全てをカテゴリカルデータからなるデータ集合として考え、ASD間の尤度比検定統計量を非類似度として用いる手法を提案し、大規模な実データに対するクラスタリングの適用例を示した。今後は、データ集合内の各変数ごとの影響を考察し、各変数間ごとの非類似度の導出およびそれらを用いたクラスタリング手法の提案を行いたい。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

口頭発表および予稿集等

1. Shimizu, N., Nakano, J. and Yamamoto, Y.:
Dissimilarity between aggregated symbolic data with real and categorical variables,
2014 Workshop in Symbolic Data Analysis,
2014.6.14, Academia Sinica, Taipei, Taiwan.

2. 清水信夫, 中野純司, 山本由和, 藤原丈史:
カテゴリー変数をもつ集約的シンボリックデータの非類似度,
2014年度統計関連学会連合大会講演報告集, p63,
2014.9.14, 東京大学本郷キャンパス(東京都文京区)

3. Shimizu, N., Nakano, J. and Yamamoto, Y.:
New dissimilarity measure for aggregated symbolic data with real and categorical variables,
Proceedings of the International Conference on Mathematics, Statistics, and Financial Mathematics 2014 (ICMSFM2014), ISBN:978-967-12788-3-3, pp. 27-34,
2014.11.18, Sunway Resort Hotel & Spa, Petaling Jaya, Malaysia.

4. 清水信夫, 中野純司, 山本由和:
変数型が混在する場合の集約的シンボリックデータの階層的クラスタリング,
日本分類学会第33回大会, pp. 11-13,
2015.3.2, 帝京大学霞が関キャンパス(東京都千代田区)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

統計数理研究所共同利用研究 平成26年度「ビッグデータの統計数理」共同研究集会
(2014.10.6 13:30-17:00、統計数理研究所 セミナー室2(D304)、30名程度)
※台風上陸日で、一部の講演予定者は不可抗力で参加できなかった。

統計数理研究所共同利用研究集会 「質的データ分析への再接近─基本理解と周辺理論─」
(2015.3.12 12:30-17:30、統計数理研究所 セミナー室2(D304)、20名)

 

研究参加者一覧

氏名

所属機関

大田 靖

同志社大学

谷岡 健資

同志社大学

寺田 吉壱

大阪大学

中野 純司

統計数理研究所

村上 隆

中京大学

宿久 洋

同志社大学