平成272015)年度 重点型研究実施報告書

 

課題番号

27−共研−4204

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

集約的シンボリックデータの利用によるビッグデータ解析手法の拡張

重点テーマ

ビッグデータの統計数理 II

フリガナ

代表者氏名

シミズ ノブオ

清水 信夫

ローマ字

Shimizu Nobuo

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

助教

配分経費

研究費

40千円

旅 費

68千円

研究参加者数

5 人

 

研究目的と成果(経過)の概要

 近年、IT技術の進歩により大規模化かつ多様化したデータが様々な分野で多数出現し、それらを解析する需要が増大している。このような需要に応えることを目的として様々な技術や解析手法が提案され実用化されており、それらを総称してビッグデータ解析という概念が定義されている。
 一方、従来の数値データやカテゴリカルデータのみならず、区間データ・ヒストグラムデータ・分布値データなど、近年新たに多く出現している様々なタイプのデータをも一般化して表現する枠組みとして、フランスのDiday教授により提案されているシンボリックデータ(SD)がある。SDの解析手法については、既存の統計的解析手法の拡張などを含め多数提案されており、これらはシンボリックデータ解析(SDA)として現在も研究が進められている。
 ビッグデータの解析にあたり、研究代表者らは、個々のオリジナルデータそのものではなくその中の各グループに関して得られた情報に興味が持たれている状況において解析を行うために、グループに対し集約的シンボリックデータ(ASD)という概念を導入した。研究代表者らは、数値データのみで表現されるデータがいくつかにグループ化されている場合について、これらのグループデータであるASDを確率分布として表現し、その分布を近似的に表現した統計量(平均・分散共分散行列など)をも新たなデータとして解析する手法を提案している。また、この場合におけるASDについてクラスタリングを行う場合についてはEMアルゴリズムの利用が有効であることも示しており、データ解析手法の拡張に寄与している。
 本研究においては、それらに加えて数値データ以外のデータ型が含まれるようなデータがグループ化されている場合においても、データの構造に適したASDの定義方法や有効なクラスタリングなどを中心とした解析手法についての研究を進める。そして、それらの手法の利用による解析結果について表示および考察を行い、ビッグデータ解析の更なる発展を目的とする。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

口頭発表および予稿集等

1. 清水信夫, 中野純司, 山本由和:
集約的シンボリックデータの利用,
2015年度統計関連学会連合大会講演報告集, p203,
2015.9.9, 岡山大学津島キャンパス(岡山市北区)

2. Shimizu, N., Nakano, J. and Yamamoto, Y.:
Aggregated symbolic data with categorical variables,
2015 Workshop in Symbolic Data Analysis,
2015.11.19, Orleans University, Orleans, France.

3. Shimizu, N., Nakano, J. and Yamamoto, Y.:
Visualizing dissimilarity among aggregated symbolic data,
The 9th Conference of the Asian Regional Section of the International Association for Statistical Computing (IASC-ARS 2015),
2015.12.18, Singapore National University, Singapore, Singapore.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

統計数理研究所共同利用研究 平成27年度「ビッグデータの統計数理 II」共同研究集会
(2015.10.26 13:30-17:00、統計数理研究所 セミナー室2(D304)、20名程度)

 

研究参加者一覧

氏名

所属機関

谷岡 健資

同志社大学

中野 純司

統計数理研究所

宿久 洋

同志社大学