共同研究スタートアップ

共同研究スタートアッププログラムから共同研究に発展した例

ケース1:公的機関の相談から共同研究へ

1996年に、財団法人金融情報システムセンター(FISC)調査部から「市場リスクに関する自己資本規制ガイドライン作成のための統計的方法」という課題が持ち込まれ、所内教員が対応しました。当時FISCは大蔵省(現金融庁)の指導のもと、BIS規制に関わる行政検査について、統計学を用いて合理的な手法を構築するという課題を抱えていました。

当時主流の市場リスク計量化法は、デルタ法と呼ばれるパラメトリックな方法でしたが、リスクの捕捉力が弱く実務家からも疑問の声があがっていました。これについて統計数理研究所において実データをもちいて解析したところ、ノンパラメトリックな方法が優れていることが分かりました。またパラメトリックな方法を用いた場合についても、行政検査で確認すべき点について統計学的な観点から整理を行いました。この成果は、FISC主催の統合リスク管理研究会に教員を派遣して議論し(1998年に報告書を刊行)、その後のBIS規制に関する検査・監督に生かされています。その成果として、現在は市場リスクの計量化についてノンパラメトリックな方法であるヒストリカル法が主流となり、デルタ法を採用している金融機関は少なくなりました。

また、この共同研究の成果をきっかけに、金融庁金融研究研修センター(現在の金融研究センター)に対して常時特別研究員を派遣し、正確なリスクの計量化方法の開発と行政化のための共同研究を行うようになりました。また、同センターとの共同開催のシンポジウムや共同執筆の論文を発表するなどの活動が現在も継続的に行われています。これらの研究・活動は、バーゼルII :「新しい自己資本比率規制」金融庁告示(2006)における信用リスクモデル評価の方法論の確立や、債権回収率モデルの指針作りに利用されており、統計的思考法が社会制度設計に活用された好例となっています。

ケース2:日常に隠れた数理の芽

統計数理研究所が以前に選挙の当確予測をお手伝いしたことがあった縁で、大手通信社からプロ野球のマジックナンバーの計算に関する相談が持ち込まれました。

クライマックスシリーズ (CS)と呼ばれるプレーオフに進出できる各リーグ3位以内を確定するためにあと何勝すればいいのかを表す指標として、クライマックス進出マジックナンバー(CSマジック)というものがありました。これは野球ファンに定着している優勝マジックナンバーと同じような考え方で簡単に計算できますが、あくまでも上限を与える一つの目安に過ぎず、実際2009年のセ・リーグでは、巨人が既にCS進出を決めているのにもかかわらず、CSマジックが1と報道されるということが起こってしまいました。

そのため、最小の勝ち数を正確に与える新しい指標を求めて、研究所にご相談に来られたわけです。お話を聞いているうちに、これはロバスト最適化という考え方を使って解くことができ、線形および非凸2次の制約条件と線形の目的関数を持つ複数の整数計画問題に帰着することがわかりました。数理最適化と呼ばれる分野の中でも解くのが難しい種類の問題で、学術的にもおもしろいものです。

その後共同研究を進めることになり、その成果として、CSクリンチナンバー(CSクリンチ)と名づけられた新しい指標が2010年のシーズンから配信されるようになりました。公式戦がある日は、全試合終了後、各チームに対してそれぞれ2つ合計24個の最適化問題が解かれています。

ケース3:英語心内辞書データの統計的解析

2007年に、外国語学習を専門に研究されている大学教員から統計解析の相談がありました。「封筒の中にある50個の英単語をあなたが考える意味のまとまりにグループ分けしてください。」という指示を、ネイティブスピーカーと日本人の各グループ30人に与えた実験結果のデータをもとに、グループ間の心内辞書の違いを解析することが相談者の方の目的でした。

この種のデータではデンドログラムと呼ばれる木構造のモデルを用いることが多く、相談者の方も各グループのデンドログラムを既に計算されていたのですが、そのデンドログラムが統計的に有意に異なっているかどうかを解析する手法が分からずに困っているとのことでした。担当した研究教育職員は並べ替え検定という手法が使えると気付き、その場でその手法について説明しました。また、様々なアプローチから統計的解析が可能な興味深い構造を有するデータだということが次第に明らかになり、共同研究に発展しました。

その後、実際に並べ替え検定を行ったところ、グループ間の心内辞書の差異が品詞によって異なることをはじめ、外国語学習法の改良に繋がるような興味深い結果が得られました。その一方で、デンドログラムの構成方法によっては並べ替え検定の一致性が保証されないというような統計学的な研究結果も得られ、これらの結果は共著論文や国内外の学会で発表されました。その後も新たなデータに対する解析等を行い、現在も共同研究が進行中です。

ケース4:基礎体温の変動から月経周期を予測する

2013年に、就寝中の体温を自動記録するウェアラブルセンサの開発と月経周期に関する記録・情報提供のウェブサービスを運営する企業より相談がありました。この企業では提供サービスのユーザーが記録した体温、月経開始日、健康状態などに関するデータが多く蓄積されており、これらのデータの統計的な分析によって月経周期に関する新しい知見を得られないかと考えての統計相談でした。

広く知られているように、女性の基礎体温は月経周期に伴って周期的に変動します。しかし月経は一定の間隔で訪れるとは限らないため、基礎体温に見られる周期性は不規則な揺らぎを含んでいます。統計数理研究所では企業の保有する蓄積データを利用して、このような基礎体温の変動を表現する時系列モデルを作成しました。

この時系列モデルと逐次ベイズフィルタと呼ばれる状態推定手法を用いることにより、日々得られる体温のデータを用いて、現在ユーザーが月経周期のどのくらいのステージにいるのかを確率的に評価することができるようになりました。さらにこの方法を用いて次の月経開始日をリアルタイムに予測する枠組みが構築されました。揺らぎのある月経周期を把握して、女性の健康管理に役立てることができる新しいサービスの開発につながることが期待されます。

ケース5:生物相把握のための調査デザインと統計解析

2013年に、都市緑地の鳥類相を調査している大手建設会社から統計相談がありました。相談者の目的は、分布調査のデータから都市部に生息する鳥類が選好する環境要因等を統計的に分析し、緑地計画に活用することでした。

都市部にも、多くの種類の鳥類が生息しています。個々の種の生息条件を独立に評価しようと思えばそれぞれの種に関する多くの調査データが必要となりますが、そのような網羅的な分布調査を行うためには多くのコストがかかってしまいます。また、緑地が実際にある鳥類に利用されていたとしても、たまたま調査を実施した時間に鳥類が緑地から離れていて見つからないこともありえます。このような「偽の不在」データの存在をないものと考えた解析は、分布と環境選好性の関係を誤って判断してしまう可能性があります。

統計数理研究所ではこれらの問題に対して、データに含まれる「偽の不在」を適切に処理し、限られた分布調査データから多くの種の環境選好性を同時に評価することができる調査デザインとデータ解析手法を検討しました。これにより、相談者の鳥類調査データから環境条件と鳥類相全体の関係を評価できるようになり、都市部の緑地計画の決定に活用できる知見を得ることができました。

ケース6:インターネット広告におけるアトリビューション解析

インターネット広告の効果測定においては、資料請求や商品購入といった消費者の具体的行動に至った経路と広告接触の履歴から、各広告に貢献度を配分する手法が注目されています。消費者の行動や態度変容のことをコンバージョン(以下CVと略)と呼び、方法をアトリビューション分析と呼びます。CV 直前に接触した広告のみを評価する旧来の手法と異なり、パス上で消費者が接触したすべての広告を評価対象とするため、商品やサービスを認知させることに貢献した広告や、興味・関心を深めることに貢献した広告の効果も捉えることが可能です。

しかし、実際の各広告への貢献度の配分比率は広告運用担当者の経験や勘に基づいて決定されるため、恣意性の介在という問題が生じます。ここで紹介する依頼案件では、複数のメディアの広告を一括管理して配信・効果測定を行う有料のアドサーバー等のデータを利用するのではなく、低コストで取得可能なデータを用いた個人ベースのアトリビューションモデルを構築し、消費者の意思決定プロセスを考慮した広告のCVに対する貢献度配分を可能にしました。

具体的には、消費者の広告に対する態度変容を隠れマルコフモデルと呼ばれる統計モデルで表現しています。この案件では、貢献度が高いアフィリエイト広告について予算配分を増やし、貢献度が低いディスプレイ広告については、予算配分を減らすべきであるという結果が得られました。現在、さらにこのモデルは改良され、長い間広告に接触していないと認知度が下がるという忘却効果や、同じブランドに対する異なる種類の広告接触が起こると認知度が上がる累積効果といった心理的効果についてもモデル内に取り込んで発展しています。