平成302018)年度 一般研究2実施報告書

 

課題番号

30−共研−2041

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

集約的シンボリックデータの利用によるビッグデータ解析手法の改良

フリガナ

代表者氏名

シミズ ノブオ

清水 信夫

ローマ字

Shimizu Nobuo

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

助教

配分経費

研究費

40千円

旅 費

117千円

研究参加者数

7 人

 

 

研究目的と成果(経過)の概要

近年、IT技術の進歩により大規模化かつ多様化したデータが様々な分野で多数出現し、それらを解析する需要が増大している。このような需要に応えることを目的として様々な技術や解析手法が提案され実用化されており、それらを総称してビッグデータ解析という概念が定義されている。
一方、従来の数値データやカテゴリカルデータのみならず、区間データ・ヒストグラムデータ・分布値データなど、近年新たに多く出現している様々なタイプのデータをも一般化して表現する枠組みとして、フランスのDiday教授により提案されているシンボリックデータ(SD)がある。SDの解析手法については、既存の統計的解析手法の拡張などを含め多数提案されており、これらはシンボリックデータ解析(SDA)として現在も研究が進められている。
ビッグデータの解析にあたり、研究代表者らは、個々のオリジナルデータそのものではなく、その中の各グループに関して得られた情報に興味が持たれている状況において解析を行うために、グループに対し集約的シンボリックデータ(ASD)という概念を導入した。
研究代表者らは、実数変数およびカテゴリー変数が混在するデータがいくつかにグループ化されている場合について、これらのグループデータであるASDをカテゴリー変数のみからなるデータ集合における統計量として表現し、それらをも新たなデータとして解析する手法を提案している。また、この場合におけるASDについてクラスタリングを行う場合については、確率分布の疑似尤度を非類似度として考える方法を提案しているが、各変数間の関係性について更なる考慮の余地がある。
本研究においては、各変数間の関係性についても考慮したASDの定義方法や有効なクラスタリングなどを中心とした解析手法についての研究を進める。そして、それらの手法の利用による解析結果について表示および考察を行い、ビッグデータ解析の更なる発展を目的とする。
本年度の成果として、ASDの異なる各変数間の相関を、それぞれ順序尺度をもつ異なる2つのカテゴリー変数間の相関として定義されているポリコリック相関係数を拡張する形で適用し、2次までのモーメントの値で表す方法を提案した。そして各変数間の相関が極めて高い場合について不要な変数の除去を行い、より実態に合った解析を行った例を示した。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1. 清水信夫, 中野純司, 山本由和 (2018):
集約的シンボリックデータの変数選択,
2018年度統計関連学会連合大会講演報告集, p339,
2018.9.13, 中央大学後楽園キャンパス(東京都文京区).

2. Shimizu, N., Nakano, J. and Yamamoto, Y. (2018):
Dissimilarity between aggregated symbolic data using chi-squared statistics,
2018 Workshop in Symbolic Data Analysis,
2018.10.18, Polytechnic Institute of Viana do Castelo, Viana do Castelo, Portugal.

3. 清水信夫, 中野純司, 山本由和 (2018):
集約的シンボリックデータのカイ2乗統計量を用いた非類似度とその不動産情報データへの適用,
統計数理, 66(2), pp.279-294.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

研究会開催を予定していたが、代表者の体調不良のため開催を断念した。

 

研究参加者一覧

氏名

所属機関

阿部 寛康

京都大学

庄 祐一

北海道大学

高木 諒

北海道大学大学院

谷岡 健資

和歌山県立医科大学

中野 純司

統計数理研究所

宿久 洋

同志社大学