研究室訪問

「外れ値」に上手に対処する統計手法の開発

 データ処理にあたる人々を悩ませる「外れ値」。その悪影響によって、潜在バイアスが大きくなり、データ解析の結果がおかしくなってしまう経験をだれもが持っている。

 「この普遍的な悩みを取り除く一助となりたい。」藤澤さんは、数理研究面から、外れ値に対処する「ロバスト推測」に情熱を傾ける。最近、闇の中に一灯を見出すような成果を得た。

集団とかけ離れた個性をどう取り扱うか

 ロバスト推測とは外れ値による悪影響を妥当な範囲内に抑えようという手法の総称である。「過去の研究では、外れ値の割合が大きい場合に潜在バイアスを十分に小さくできる可能性をきちんと議論しなかった。」この状況が25 年ほど続いてきた。

顔写真

藤澤 洋徳
数理・推論研究系・
学習推論グループ准教授

 藤澤さんは、外れ値の割合が大きい場合でも、潜在バイアスを十分に小さくできるという議論を展開し、ある状況下では、そのような手法は一つしかないことを証明した。その結果は、近く、専門雑誌「Journal of Multivariate Analysis」に掲載される。タイトルは「Robust parameter estimation with a small bias against heavy contamination(外れ値の割合が大きい場合にもバイアスが小さいロバスト推定法)」。

 この結果は、シャープであり、様々な場所で話題を呼んでいる。研究者らの悩みを解消する一助として、「自分でも結構いい線を行ったかなと思う」と藤澤さんは言う。

 「データ解析は数多くの個性との対面です。」個が集団と離れることの意味とは何なのか。その問いは古代ギリシャ哲学の命題にも似ている。ひとつの解は有名な「ピタゴラス関係」の応用によってクリアに説明できたという(「ピタゴラス関係」は中学生のときに習う「三平方の定理」を拡張したもの)。

数理とデータ解析のどちらにも正面から取り組みたい。

遺伝子発現データの解析

 情報・システム研究機構が推進中の新領域融合研究プロジェクトで、遺伝学研究所との共同研究体制が整ったことが、藤澤さんを新たな研究モチベーションへと導いた。対象とする遺伝子発現データは、一つの組織に対してだけでも約300万個にも上った。

 これまで、塩基多型(nucleotide polymorphism)と表現多型(expression polymorphism)の検出は別々に取り組まれてきたが、藤澤さんは、より効率的な検出を目指して、適当なモデルに基づいて、それらを同時に扱うことにした。「そのような扱い方は統計学の得意分野です。」また、そのデータでは、塩基多型の存在が遺伝子発現データのある特徴を乱し、その現象を適切に扱うことが難しかった。藤澤さんはその困難をロバスト推測法で克服することに成功した。

 構築した統計的手法に基づいて、ソフトウェア「SNEP」(Simultaneous detection of nucleotide and expression polymorphisms)が開発された。塩基多型と表現多型をうまく同時に扱うことで、SNEP は標準的な手法よりも良いパフォーマンスを見せることができた。このソフトウェアは、近く、WEB 上でも配布される予定だ。

数理とデータ解析のどちらにも意欲

 「専門分野は?」と聞かれると、「数理統計学とバイオインフォマティクス」と答える。博士(理学)を1997年に広島大学で取得した後に東京工業大学に就職し、2001年に統計数理研究所に入った。統計数理研究所で統計学の多様な可能性に触れられたことを「幸運と考えている」と藤澤さんは話す。現在、数理・推論研究系と予測発見戦略研究センターを兼務する。

 藤澤さんは若い人への統計学の啓蒙活動にも積極的だ。統計学者を志す若手のサマーセミナーの世話人を長年つとめている。2006年には大学生向けのテキストを出版した。タイトルは『確率と統計』(朝倉書店、現代基礎数学シリーズ13)。微分積分と線形代数をマスターした学生たちの入門書として、いくつかの大学で採用されている。

自分のホームページには、業績紹介のほか、「統計日記」のタイトルで最新の話題を書く。時には率直な言葉で感想を綴り、たとえば「統計学では、データを実現値と見たり、確率変数と見たりしますが、普通は確率変数として扱います。そこに何かしらの気持ち悪さをおそらくすべての統計学者がある程度は持っていると思います」と素朴な表現で本質に切り込もうとする。

 「あいまいなデータからクリアで有益な情報を導き出すことが統計学者の仕事の一つ。頭の中にひらめくかどうかが決め手となることは多い。」趣味は「絵の鑑賞、おしゃべり、人間について思索すること」という。ボーっとしている時間を大切にし、ひらめきの訪れを予感しながら生きる。

 1970年代生まれの気鋭の研究者らしく、「数理とデータ解析のどちらにも正面から取り組みたい」と意気込む藤澤さん。ひらめきを命とする次の「正面攻撃」に期待が集まる。(企画/広報室)

図1.ヒストグラムにフィットする密度推定(ロバスト推定法)緑色:標準的な最尤推定法による結果、赤色:藤澤が提案した方法による結果。

図2.遺伝子発現データ 左の図は9番目が外れ値と考えられる。右の図は10番目と11番目が外れ値と考えられる。

図3.ロバスト推定法に根拠を示すピタゴラス関係

ページトップへ