研究室訪問

ビッグデータの中から意味を引き出す解析手法の研究

 今年6月、統計数理研究所のオープンハウスでポスターによる研究発表「大規模ECサイトの閲覧履歴データの分析」が注目された。アパレル系商品のECサイトで登録顧客10万人の商品閲覧と注文の履歴から、どの客がどんな商品を買ったかを分析した。閲覧数は6,116万件、注文は34万件。分析対象の顧客情報は性別、年齢、都道府県など、商品情報は品名、サイズ、色、価格など。これを組み合わせると膨大なデータ量となり、まさにビッグデータの解析である。コンピューターによる最新の手法でデータを可視化した。グラフのように特徴や違いが分かる。それらの分析から年齢別に好まれる商品が分かり、購入者はパソコンからが多いが、購入金額はモバイル端末の方が高いことなども分かった。

 この研究は研究所内外5人の共同研究である。代表して説明した清水には企業人からの質問が多かった。「実際のデータを使ってこういう分析が出来ることで、社会人から注目されたのでしょう」。清水はいま、さまざまな分野の巨大なデータを使い、さらに高度な解析ができる手法の確立を目ざしている。

顔写真

清水 信夫
データ科学研究系
計量科学グループ助教

これまでにない形のデータの解析に取り組む

 北海道大学大学院で情報工学を学んだ後、平成12年に統計数理研究所へ入った。博士号は「データ解析における主要点の特性に関する研究」。確率分布の領域を分割した時の中心点の特性についての研究で、気象パターンの出現状況を見たり、ビッグデータの中での特徴点抽出、地域での公民館、ポスト等の適正配置を考える時に使うことができる。

 現在の専門は「多変量解析」、研究テーマは「関数データ解析」と「シンボリックデータ解析」である。多変量解析とは、多くの変数(人間では身長、体重、胸囲、手の長さなど)を持つ多数の個体からなるデータ集合の全体から何らかの特徴をつかみ出す手法で、医薬データ、経営データの分析など多くの分野で適用されている。

 「関数データ解析」は、1990年代に提唱されたデータ解析手法で、従来の統計解析が数値データを扱ったのに対し、データの系列である関数を扱って解析をする。この解析手法は時間的変化に従って得られる気象データの解析、株価の変動分析などに適している。

 「シンボリックデータ解析」は、数値データや、色・形などのカテゴリカルデータからなる多数のデータ値が、集合や区間などに集約された場合のデータを解析する方法である。自然界には実際には混在データの方が圧倒的に多く、ウェブページへのアクセス記録データなどは代表的な例である。それらは今や数百万、数千万という大規模で複雑なデータとして得られる場合が増えており、この方法は、全体の中でグループや特徴を見つけたり、相関関係を見るために用いることができる。

さまざまな分野の巨大なデータを使い、さらに高度な解析ができる手法の確立を目ざしたい

数値データとカテゴリカルデータを同時に解析する

 関数データ解析において取り組んできた研究に「関数データ解析における区間データの応用に関する研究」がある。これは関数データ解析におけるクラスタリング、つまり大きな集団の中から同種の集まりを見つけることだ。この手法では、ポルトガルでの研究活動で、国内9地点の気象データを使い、最高、最低気温の変化を関数データ区間の上端および下端と考えることによってそれぞれの地域的特徴を引き出し、各地域を比較した上でクラスターを求めた。1つの実験的研究だった。その結果、各地域の特徴、差がかなり明確に現れ、現地の研究者から注目された。

 現在の大きな関心事は「シンボリックデータ解析に関する研究」をより深め、時代の中で生かしていくこと。最近は、数値データとカテゴリカルデータを同時に含む数百万、数千万という膨大なデータ集合が出現し、それを解析し、いくつかの意味のある集合を引き出すことが求められる。清水らは、その集合を「集約的シンボリックデータ」と定義し、極力情報量を落とさないようにして統計的に意味のある解析を行うことを目ざしている。

 この手法を使ったテストケースとして国内外の車400種を比較した研究の結果を6月、台湾での学会で報告した。タイプ、駆動方式、シリンダー数の3種類のカテゴリカルデータに加え、長さ、重さ、エンジンパワー、価格など数値データが10種類。これらを組み合わせ、各車をタイプ別に分類した場合の各グループ間の近さを見たのである。その結果、ミニバンとSUVが比較的近いことが分かった。この研究は統計数理研究所の中野純司教授が中心になって研究しているデータの可視化とも関連している。膨大なデータを見るために将来性のある手法だ。「そうです、それこそビッグデータの解析のための1つの手法、有力な手法として役立てることを目ざしているのです」と清水は語る。

データを見ながら社会にどのように役立つかを考える

 最近はデータの規模も計算機環境も激しく変化している。その中で清水が関心を持ち続けているのは巨大なデータの中で何らかの意味を持つ集団を探し出すクラスタリングだ。今後も、その研究を外的変化に対応しながら進展するよう続けたいと言う。「計算機の性能向上に対応して、いろいろと考える。データ自体もタイプがガラッと変わるので、それにも対応して考える。変化には今後も注目していきたいと思っています」

 もともと数学や統計に興味を持ったのは、子供のころに読んだ数学者、故遠山啓氏監修の算数漫画や理科の教師だった父親が持っていた生徒の成績データベースを見たことからだったという。いまは趣味としてサッカー観戦に興味を持っている。休日を利用し東日本のJ1、J2チームのホームスタジアムはすべて訪れた。単に試合だけを見ているのではない。各チームの様々な成績データや経営データにも注目し、何とか改善できないかと考える。研究と趣味の両面で数々のデータを見ながら、そのデータが実際の社会の中でどのように役立つかと考えているのは、子供時代の体験によるところが大きいようだ。

(広報室)

図1.大規模ECサイトでの1回あたりの購入金額の対数値の平均(左)および標準偏差(右)。(各上段:セール期間内、各下段:セール期間外)購入金額はモバイル端末からの方が高い傾向にあることが読み取れる。図2.ポルトガル国内9都市の最高気温および最低気温の区間値関数データの階層的クラスタリング。概ね3つのクラスターに分かれているのが解る。図3.自動車データの集約的シンボリックデータ利用による車種別の階層的クラスタリング。ミニバンとSUVが比較的近いことが読み取れる。

ページトップへ