平成292017)年度 一般研究2実施報告書

 

課題番号

29−共研−2038

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

集約的シンボリックデータの利用によるビッグデータ解析手法の改良

フリガナ

代表者氏名

シミズ ノブオ

清水 信夫

ローマ字

Shimizu Nobuo

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

助教

配分経費

研究費

40千円

旅 費

86千円

研究参加者数

7 人

 

 

研究目的と成果(経過)の概要

近年、IT技術の進歩により大規模化かつ多様化したデータが様々な分野で多数出現し、それらを解析する需要が増大している。このような需要に応えることを目的として様々な技術や解析手法が提案され実用化されており、それらを総称してビッグデータ解析という概念が定義されている。
一方、従来の数値データやカテゴリカルデータのみならず、区間データ・ヒストグラムデータ・分布値データなど、近年新たに多く出現している様々なタイプのデータをも一般化して表現する枠組みとして、フランスのDiday教授により提案されているシンボリックデータ(SD)がある。SDの解析手法については、既存の統計的解析手法の拡張などを含め多数提案されており、これらはシンボリックデータ解析(SDA)として現在も研究が進められている。
ビッグデータの解析にあたり、研究代表者らは、個々のオリジナルデータそのものではなく、その中の各グループに関して得られた情報に興味が持たれている状況において解析を行うために、グループに対し集約的シンボリックデータ(ASD)という概念を導入した。
研究代表者らは、連続(実数)変数およびカテゴリー変数が混在するデータがいくつかにグループ化されている場合について、これらのグループデータであるASDをカテゴリー変数のみからなるデータ集合における統計量として表現し、それらをも新たなデータとして解析する手法を提案している。また、この場合におけるASDについてクラスタリングを行う場合については、確率分布の疑似尤度を非類似度として考える方法を提案しているが、各変数間の関係性について更なる考慮の余地がある。
本研究においては、各変数間の関係性についても考慮したASDの定義方法や有効なクラスタリングなどを中心とした解析手法についての研究を進める。そして、それらの手法の利用による解析結果について表示および考察を行い、ビッグデータ解析の更なる発展を目的とする。
本年度の成果として、連続変数の部分をカテゴリー化して全てがカテゴリー変数であるとみなした上で、ASD相互間の非類似度を異なる2変数の組のカイ2乗統計量を用いて求める方法を提案した。そしてその非類似度を用いてクラスタリングを行い、実データを用いた解析例を示した。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1. Shimizu, N., Nakano, J. and Yamamoto, Y.:
Dissimilarity by chi-squared statistic for aggregated symbolic data with continuous and categorical variables,
Conference of the International Federation of Classification Societies 2017 (IFCS-2017),
2017.8.10, 東海大学高輪キャンパス(東京都港区)

2. 清水信夫, 中野純司, 山本由和:
カテゴリー変数を含む集約的シンボリックデータのカイ2乗統計量,
2017年度統計関連学会連合大会講演報告集, p233,
2017.9.5, 南山大学名古屋キャンパス(名古屋市昭和区)

3. Shimizu, N., Nakano, J. and Yamamoto, Y.:
Dissimilarities between groups of data,
New Zealand Statistical Association and the International Association of Statistical Computing (NZSA/IASC-ARS 2017),
2017.12.14, The University of Auckland, Auckland, New Zealand.

4. Takagi, R., Minami, H. and Mizuta, M.:
Meta-analysis with symbolic data analysis and its application for clinical data,
New Zealand Statistical Association and the International Association of Statistical Computing (NZSA/IASC-ARS 2017),
2017.12.11, The University of Auckland, Auckland, New Zealand.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

統計数理研究所共同利用に係る合同研究集会(H29-2-2037,2038,2045)
(2018.3.6 14:00-17:00、統計数理研究所 セミナー室5(D313)、9名)

 

研究参加者一覧

氏名

所属機関

阿部 寛康

同志社大学

金澤 侑哉

北海道大学

高木 諒

北海道大学

谷岡 健資

和歌山県立医科大学

中野 純司

統計数理研究所

宿久 洋

同志社大学