研究室訪問

「データ空間の曲率」で拓く統計学の新境地

 どんな環境に身を置くか。偶然であれ、自らの選択であれ、人はそのときどきの周辺環境に大きな影響を受けながら作られてゆく。自由な校風の中で、クイズのように数学の問題をクラスメイトと解きあった中学時代。認知科学者の著書に夢中になった高校時代。ポスドク中に滞在した米国では天才的な数学者の薫陶を受け、帰国後はたまたま手掛けた「心内辞書」の解析が、データ空間の曲率に着目した手法の理論的評価に興味を持ち始めるきっかけになった。

数値データを図形とみなして平均を出す

 「心内辞書」とは、言語を習得するにしたがって、頭の中にできてゆく辞書のようなものだ。日本語の心内辞書を持つ日本人が英語を学習すると、日本語のものとは別に新たな心内辞書が作られる。心内辞書は一人ひとり異なり、意味の近い言葉や関連のある言葉がまとまってブドウの房のような階層構造、すなわちクラスター状になっている。熊本大学の折田充教授は、日本人英語学習者の心内辞書における意味的クラスタリング構造を解明するために、統計数理研究所の統計相談を依頼。担当者として選ばれたのが小林だった。

顔写真

小林 景
数理・推論研究系
統計基礎数理グループ助教

 折田教授の実験では、複数の日本人の英語学習者とネイティブ・スピーカーに同じ英単語を示し、関連があると思う言葉同士をグループ分けしてもらう。その結果から日本人、ネイティブそれぞれに平均を出し、図1のような2つの樹形図(群デンドログラム)にする。これにより、両者の質的な差が見てとれる。例えば日本人は“wrong”を“bad”に近い語として捉えているのに対して、ネイティブは“wrong”を“right”の対として捉えているようだ。しかし、このような一見した違いは、実は統計的誤差によるものかもしれない。

 小林が独創性を発揮したのは、その検証だ。まず2つの樹形図間の定量的な差を解析するために、「並べ替え検定」という統計的手法を持ち込んだ。標本をランダムに並べ替え、あえて反対の仮説に従うデータを作り、これを棄却できるかどうかを判定する方法だ。その結果「日本人とネイティブの心内辞書の構造には、統計学的に有為な差がある」との結論を得た。

 さらに、2つの樹形図の差異をより確実に比較するために、データを数値ではなく図形とみなして平均を出す方法を考えた。「幾何学的に解けば、設定に関わらず、おのずと一意に平均が決まるからです」。樹形図を空間に変換すると複雑な多次元空間になるが、空間上の2点間の最短経路を用いる「測地平均」を使えば計算できる。しかし、球体のような正の曲率空間には測地平均が多数存在することから、この樹形図の空間が曲率0以下であること、すなわちCAT(0)であることを証明する必要があった。これを成し遂げたのが、小林の研究成果の一つだ。

今でも昔の理論が引用されるように、筋の良い研究には普遍性があります

「ゲーデル、エッシャー、バッハ」に導かれて

 小林を形成した数学的環境は、筑波大学附属駒場中学のときに始まる。進学校ながら、受験勉強より生徒の自律的な勉強意欲を伸ばす教育方針が伝統だ。数学の授業でも、教師が独自に考案した問題を解くことが多かった。「難問をじっくり考える楽しみを知り、数学が好きになりました」と小林は振り返る。

 高校時代には、将来の進路に影響を与える本との運命的な出合いがあった。図書館でたまたま手に取った名著「ゲーデル、エッシャー、バッハ—あるいは不思議の環」だ。著者のダグラス・ホフスタッターは、認知科学や計算機科学の研究者。ゲーデルの不完全性定理、エッシャーのだまし絵、バッハのフーガを串刺しにして人工知能や認知を語る独特の展開に心を掴まれ、貪るように読んだという。この本に影響を受けて、人工知能を研究するべく東京大学工学部計数工学科へ進んだ。

 当時、人工知能研究の主流が論理学からニューラルネットワークへ移行しつつあり、小林も自然と統計に取り組むようになる。日本学術振興会の特別研究員として統計数理研究所へ入り、2005年にはポスドク研究員としてカリフォルニア大学バークレー校に赴任。「講義中に興が乗ると、ジャンプしながら数式を板書する教授もいました(笑)」。“数学のノーベル賞”ことフィールズ賞受賞者を多数輩出している数学のメッカで熱気を浴び、改めて数学の面白さに目覚めて統数研へ戻ってきた。

激流の底にある確かな基礎を見つめる

 心内辞書の解析をきっかけに、空間の曲率に着目した研究を始めた小林。「空間の曲率は、統計学ではこれまで限られた領域でしか扱われていませんでしたが、ビッグデータなどを扱う際にも重要な役割を果たすはず。これを使えば、新しい統計学を作ることも夢ではありません」と力を込める。

 最近は、理論の追究だけではなく、応用にも興味を募らせている。2013年秋からは、数学協働プログラムの数理材料科学WGにも参加。東北大学をはじめとする多機関との共同研究で、マテリアルズ・インフォマティクスに取り組む。分子の格子構造をもとに数理的に自然な特徴量を導き出し、効率的な材料デザイン手法の開発を目指すものだ。材料工学は産業と直結した開発競争の激しい世界。物性理論の研究者たちとのディスカッションはエキサイティングだ。また、2014年10月からはJSTさきがけの研究領域「社会的課題の解決に向けた数学と諸分野の協働」の研究者も兼任する。

 変化する環境の中に、常に前向きに飛び込んできた。その小林があえて見つめるのは、いつの世にも変わらない底流だ。「コンピューターの進歩とともに、統計学はこの20年で激変しました。しかし、今でも昔の理論が引用されるように、筋の良い研究には普遍性があります。自分の研究もそういうものの一つになることができれば、と思っています」。穏やかな口調で語った。

(広報室)

図1.形容詞の分類に基づいたデンドログラム(上:日本人、下:英語母語話者)。2つの違いの有無を統計的に解析する。図2.デンドログラム空間の単体的扇構造の例。一見複雑な構造だが、CAT(0)という数学的特徴を生かした解析ができる。図3.代数的手法や情報幾何学を用いると、統計的に有効かつ計算量も小さい推定手法を作ることができる。

ページトップへ