平成292017)年度 一般研究2実施報告書

 

課題番号

29−共研−2059

分野分類

統計数理研究所内分野分類

h

主要研究分野分類

2

研究課題名

高次元空間におけるハブネス現象解明

フリガナ

代表者氏名

スズキ イクミ

鈴木 郁美

ローマ字

Suzuki Ikumi

所属機関

山形大学

所属部局

理工学研究科

職  名

助教

配分経費

研究費

40千円

旅 費

52千円

研究参加者数

4 人

 

 

研究目的と成果(経過)の概要

高度に情報化された現代社会では,インターネットやセンサーなど,情報を収集,発信させる情報インフラが発達し,大規模データは私たちの生活に身近なものとなっている.
一方,集積された大規模な観測データを有効に活用する明らかな方法はなく,未だ重要な課題である.とりわけ,生物情報,文書データ,顧客の販売履歴情報など,多岐にわたる分野のデータが超高次元データとして蓄積されている.
高次元空間では,我々が低次元空間で理解することがそのまま通じる訳ではなく,「次元の呪い」として知られる,一見不思議な現象が起こる.例えば,空間の縁にデータが集中する現象は,次元の呪いの一つとし て以前から知られていたが,最近,新たな次元の呪いとして,高次元データにはハブが出現する現象が報告された.ハブは,データ中心(セントロイド)に距離が近い/類似度が高い事例であるために,高次元で多くの事例と距離が近くなる/類似度が高くなる事例である.
ハブは他の事例のk近傍に頻出するため,近傍情報を利用した分類や検索,グラフ構築など,近傍法を利用 した手法の精度を著しく低下させることが知られている.
大規模高次元データは増える一方であるが,データ全体を理解した上での活用法は十分に開発されていない.本研究では,大規模高次元データの問題の一面であるハブネスの現象に着目し,ハブネスが起こる現象の数理解明,またその軽減を目的とした手法の開発を行う.
成果としては,高次元データをもとに作成された近傍グラフは,事例が属するクラスにかかわらず,多くの事例(ノード)とエッジでつながる事例(ハブノード)があるグラフが作られてしまう.そのようなハブノードを含むグラフをもとにしてラベル伝搬を行い,半教師あり学習の枠組みでラベル推定を行うと,判別制度が著しく劣る.高次元由来のハブをセンタリング法により軽減させ,グラフ構築を行うと,ラベル伝搬による半教師あり学習の精度が向上することがわかった.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

Centered kNN Graph for Semi-Supervised Learning.
Ikumi Suzuki and Kazuo Hara.In proceedings of the 40th Annual ACM SIGIR Conference, pp.857-860, Tokyo 2017.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

なし

 

研究参加者一覧

氏名

所属機関

小林 景

慶應義塾大学

原 一夫

国立遺伝学研究所

福水 健次

統計数理研究所