平成282016)年度 重点型研究実施報告書

 

課題番号

28−共研−4105

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

2

研究課題名

集約的シンボリックデータの利用によるビッグデータ解析手法の拡張

重点テーマ

ビッグデータの統計数理II

フリガナ

代表者氏名

シミズ ノブオ

清水 信夫

ローマ字

Shimizu Nobuo

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

助教

配分経費

研究費

40千円

旅 費

130千円

研究参加者数

8 人

 

研究目的と成果(経過)の概要

近年、IT技術の進歩により大規模化かつ多様化したデータが様々な分野で多数出現し、それらを解析する需要が増大している。このような需要に応えることを目的として様々な技術や解析手法が提案され実用化されており、それらを総称してビッグデータ解析という概念が定義されている。
一方、従来の数値データやカテゴリカルデータのみならず、区間データ・ヒストグラムデータ・分布値データなど、近年新たに多く出現している様々なタイプのデータをも一般化して表現する枠組みとして、フランスのDiday教授により提案されているシンボリックデータ(SD)がある。SDの解析手法については、既存の統計的解析手法の拡張などを含め多数提案されており、これらはシンボリックデータ解析(SDA)として現在も研究が進められている。
ビッグデータの解析にあたり、研究代表者らは、個々のオリジナルデータそのものではなくその中の各グループに関して得られた情報に興味が持たれている状況において解析を行うために、グループに対し集約的シンボリックデータ(ASD)という概念を導入した。研究代表者らは、数値データのみで表現されるデータがいくつかにグループ化されている場合について、これらのグループデータであるASDを確率分布として表現し、その分布を近似的に表現した統計量(平均・分散共分散行列など)をも新たなデータとして解析する手法を提案している。また、この場合におけるASDについてクラスタリングを行う場合についてはEMアルゴリズムの利用が有効であることも示しており、データ解析手法の拡張に寄与している。
本研究においては、それらに加えて数値データ以外のデータ型が含まれるようなデータがグループ化されている場合においても、データの構造に適したASDの定義方法や有効なクラスタリングなどを中心とした解析手法についての研究を進める。そして、それらの手法の利用による解析結果について表示および考察を行い、ビッグデータ解析の更なる発展を目的とする。
本年度の成果として、全ての変数がカテゴリーデータのみからなるデータがグループ化されている場合において、それより生成される多重分割表における個々の分割表がそれぞれ多項分布に従うと考え、それに基づくASD相互間の疑似尤度を非類似度としてクラスタリングを行う方法を提案し、実データを用いた解析例を示した。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

清水信夫, 中野純司, 山本由和:
カテゴリー変数を含む集約的シンボリックデータの非類似度の性質,
2016年度統計関連学会連合大会講演報告集, p91,
2016.9.5, 金沢大学角間キャンパス(石川県金沢市)

清水信夫:
サービス産業データへの集約的シンボリックデータの適用,
サービス科学研究センター最終年度シンポジウム,
2017.1.17, 筑波大学東京キャンパス(東京都文京区)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

統計数理研究所共同利用研究重点テーマ「ビッグデータの統計数理 II」共同研究集会
(2017.2.27 13:30-16:30、統計数理研究所 セミナー室5(D313)、6名)

 

研究参加者一覧

氏名

所属機関

阿部 寛康

同志社大学

菊地 哲史

北海道大学

高丸 裕基

北海道大学

谷岡 健資

和歌山県立医科大学

中野 純司

統計数理研究所

宿久 洋

同志社大学