平成282016)年度 重点型研究実施報告書

 

課題番号

28−共研−4103

分野分類

統計数理研究所内分野分類

b

主要研究分野分類

2

研究課題名

集約的シンボリックデータの可視化と生成に関する研究

重点テーマ

ビッグデータの統計数理II

フリガナ

代表者氏名

ヤマモト ヨシカズ

山本 由和

ローマ字

Yamamoto Yoshikazu

所属機関

徳島文理大学

所属部局

理工学部

職  名

教授

配分経費

研究費

40千円

旅 費

267千円

研究参加者数

6 人

 

研究目的と成果(経過)の概要

本研究では,大規模データの構造や特徴を自然に表すことを目的とした,適切な集約的シンボリックデータの生成についての研究開発を行う.大規模多変量データがある場合,いくつかのグループ分けが自然に行われ,オリジナルデータそのものではなく,それらのグループに関しての情報に興味がある場合がある.このとき,そのグループを表す情報をひとつの個体と考え,その情報を表したデータを集約的シンボリックデータと呼ぶ.集約的シンボリックデータの例として,各グループの平均や共分散行列などが考えられる.このような集約的シンボリックデータは,大量データと比較してサイズがかなり小さくなる.そのため,大量データの代わりに,集約的シンボリックデータを解析できるようにすることも考えている.
われわれの作成しているデータ可視化ソフトウェアとビッグデータに関連する技術を連携させることによって,大規模データの構造を理解できることを目的とした,適切な集約的シンボリックデータの生成を行えるようにする.
このために,ビッグデータに関連する技術であるApache HadoopとApache Sparkの計算結果を可視化するソフトウェアに設計と実装を行った.これは,分散ファイルシステム上のファイルをマウス操作によって指定することによって対話的操作が可能な統計グラフィックスを表示できる.この結果を2月に統計数理研究所において,本重点テーマに基づく各研究課題代表者を中心に開催した研究会で報告するとともに学会においても報告を行った.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

山本由和, 高野慎也. アニメーションを利用した購買情報の表示. 計算機統計学, Vol. 29, No. 1, pp. 77-87, 2016.
山本由和, 高野慎也, 中田誠人, 松田真実. 購買情報の時間変化の可視化. 計算機統計学, Vol. 29, No. 2, pp. 169-179, 2016.
Yoshikazu Yamamoto. Clustering huge data sets using Hadoop and Spark. In Proceedings of the KSS Autumn Conference 2016, p. 51, Statistics Korea, Statistics Center, 2016.
Yoshikazu Yamamoto, Mami Matsuday, Yuki Fujimotoz, Nobuo Shimizux, and Junji Nakano. Clustering large data sets using MapReduce and Apache Spark. In Proceedings of the 2016 International Conference for JSCS 30th Anniversary in Seattle, pp. 62-65, Seattle Central Library, 2016.
山本由和, 松田真実, 藤本祐規. MapReduce とSpark を利用した大規模データのクラスタリング. 日本計算機統計学会第30 回シンポジウム講演論文集, pp. 139-142, プラサヴェルデ, 2016.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

平成28年度「ビッグデータの統計数理II」共同研究集会・2月27日・セミナー室5

 

研究参加者一覧

氏名

所属機関

飯塚 誠也

岡山大学

中野 純司

統計数理研究所

藤野 友和

福岡女子大学

森本 滋郎

徳島文理大学