数学・数理科学と共に拓く豊かな未来 数学・数理科学と諸科学・産業の恊働による研究を促進するための「議論の場」を提供
項目 内容
研究集会等の名称 超高次元データ解析の数理基盤
該当する重点テーマ ビッグデータ、複雑な現象やシステム等の構造の解明 、疎構造データからの大域構造の推論 、最適化と制御の数理
キーワード 高次元データ,ビッグデータ,スパース,最適化
主催機関
  • 統計数理研究所
運営責任者
  • 福水 健次
開催日時 2014/03/13 00:00 ~ 2014/03/15 00:00
開催場所 統計数理研究所 大会議室(2F)
最終プログラム

*詳細はホームページ http://www.ism.ac.jp/~fukumizu/CoopMathWS2014/index.html をご覧ください.

3月13日(木)

10:00-10:15 オープニング

10:15-11:15 Michael Elad

11:15-12:15 Yoshiyuki Kabashima

 (昼食)

13:45-14:45 Toshiyuki Tanaka

14:45-15:45 Shiro Ikeda

 

3月14日(金)

10:00-11:00 Noureddine El Karoui

11:00-12:00 Kei Kobayashi

 (昼食)

13:30-14:30 Kengo Kato

14:30-15:30 Arthur Gretton

 (休憩)

15:50-16:50 Shotaro Akaho

16:50-17:50 Kenji Fukumizu

 

3月15日(土)

10:00-11:00 Milos Radovanovic

11:00-12:00 Ikumi Suzuki

(昼食)

13:30-14:30 Ryota Tomioka

14:30-15:30 Taiji Suzuki

 

参加者(総数、内訳) 13日47名(大学等35、学生6、企業等6)、14日32名(大学等24、学生5、企業等3)、15日25名(大学等16、学生7、企業等2)
当日の論点

大規模超高次元データの解析に対しては、低次元データに適した古典的手法や、低次元に慣れた人間の素朴な直感に根差したヒューリスティクスだけでは明らかに限界があり、大規模超高次元データの数理的本質を解明し、その性質に根差したデータ解析の方法を体系化していくアプローチが重要となると考えられる。本研究集会では、その研究の現状と今後の方向性を議論した。

特に以下をその論点とした。

(1) 内在的構造を持つデータの解析と数理
・ スパース性の仮定の導入による、効果的なデータ解析法とその数理
・ カーネル法などデータの類似度を仮定することによる効率的アルゴリズム

(2) 高次元データの持つ数理的特性
・ 次元とデータ数がともに無限大になるときの、漸近挙動の解明
・ ハブ現象の数理と、データ解析における役割

(3) 大規模データに対する効率的アルゴリズム
・ 大規模データの解析に必要とされる効率的最適化アルゴリズム

 

研究の現状と課題(既にできていること、できていないことの切り分け)

(1) 内在的構造を持つデータの解析と数理

  • スパース性を利用したモデリングに関しては、観測されたデータに対してスパースな表現を実現する基底(辞書)の学習が、重要な課題として認識され(Elad, 樺島)、それに対してさまざまな手法が提案されている状況である。標準的な線形モデルにおいては、一定の成功を収めているが、そこから外れた状況でのスパースモデリングも議論されてきている(樺島)。また、さまざまな関連アルゴリズムへの発展(田中、永田)や新しい応用(池田)も進んでいる。
  • カーネル法においては、独立性や依存性などに関するノンパラメトリック推論(Gretton)、ベイズ推論(福水)などへ適用されており、高次元データに対する良好な性能が確認されてきている。
  • 低次のテンソル分解を仮定して、データを表現する方法も盛んに議論されるようになっている(冨岡)。

(2) 高次元データの持つ数理的特性

  • 高次元漸近理論では、データ数と次元が比例するように無限大に増加する場合の、統計量の挙動を明らかにしようとする。ロバスト推定(El Karoui)やBootstrap(加藤)といった、さまざまな状況下での漸近理論があきらかとなってきている。
  • ハブ現象についての理論、実験的理解が進んできており(Radmanovic)、またハブの解消法(鈴木)についても進展がみられている。
  • データの幾何的特性をみる新しい距離構造の提案もされている(小林)。

(3) 大規模データに対する効率的アルゴリズム

  • テンソル分解に対する効率的な方法が得られている(冨岡)。
  • スパース性やMultiple kernel learningなどの問題に対して、タイトな収束レートが知られるようになってきている(鈴木)。

 

 

新たに明らかになった課題、今後解決すべきこと

(1) 内在的構造を持つデータの解析と数理

  • スパースモデリングに関しては、辞書学習のより効果的な方法、非線形モデルなどへの拡張が重要な課題であると考えられる。
  • カーネル法に関しては、高次元データに対する理論の構築が重要である。

(2) 高次元データの持つ数理的特性

  • 高次元の漸近的挙動は徐々に理解が進んできたが、それを用いた効果的なアルゴリズムの開発、今までの認識を超えた現象の発見などが求められる。
  • ハブ現象に関しては、さらに進んだ理論の展開と、ハブ現象を利用したデータ解析法の発展が望まれる。

(3) 大規模データに対する効率的アルゴリズム

  • 大規模データへの適用可能性を向上させるため、データの内在的構造や高次元漸近理論の結果の基づく、効率的アルゴリズムの開発が望まれる。
今後の展開・フォローアップ
  • 発表の多くは、ホームページ
    http://www.ism.ac.jp/~fukumizu/CoopMathWS2014/ にスライドを掲載し、関心のある人が誰でも見られるようにしてある。
  • 今回の研究会を契機として、さらに国際ワークショップを継続して開催していくことが有効と思われる。
  • 研究集会で議論された内容が、共同研究の端緒となっており(赤穂‐福水)、これをさらに進展させたい。
  • ハブ現象の研究者のように、これまで交流が少なかった研究者間の、交流をさらに進めていくのが望ましい。