響き合う人とデータ―統数研プロジェクト紹介

第36回「時空間データを用いた方向統計モデルの構築」

事故や災害にかかわる「方向データ」の解析で損保会社と協働

三井住友海上火災保険株式会社(以下、三井住友海上)は、同社が保有している多くの事故や災害に関連するデータを活用した分析により蓄積した知見を、社会課題の解決に生かす方針を打ち出している。その一環として、気象や移動情報の分析で扱う「方向データ」の定量的な活用や有効な統計的解釈の実現を目指し、統計数理研究所の産学連携プログラムを利用。現在、方向統計学を専門とする教職員と進めている共同研究の様子を紹介する。

事故や災害の補償から社会課題の解決へデータサイエンスで保険が進化する

現代の保険システムの基になった「相互救済」の考え方は、古代バビロンの時代に生まれたと言われる。日本でも奈良・平安時代にすでに、飢饉に備えて穀類を備蓄しておく「義倉」と呼ぶ制度があった。今では災害や事故などさまざまなリスクを補償する損害保険が存在し、企業や個人の夢と挑戦を支えている。

▲加藤昇吾准教授

日本を代表する損害保険会社の一つ、三井住友海上はこれからの自社の役割について、「事故や災害による被害を補償するだけでなく、これまで蓄積した知見を生かして補償前後のソリューションを提供し、お客さまや社会課題を解決すること」を掲げている。事故や災害のリスクを評価する技術は、補償の査定の精度向上はもちろん、事故の予防や防災にも役立てられる可能性が大きいからだ。

今回紹介するプロジェクト「時空間データを用いた方向統計モデルの構築」は、そうした目標のもと、三住井住友海上が統計数理研究所の産学連携プログラムに、方向統計学(directional statistics)の専門家である加藤昇吾准教授との共同研究を申し入れて実現したものだ。

▲石川雅之氏(三井住友海上火災保険)

同社のデータサイエンティストであり、ビジネスデザイン部 データサイエンスチーム主任スペシャリストの石川雅之さんは、「当社のデータ分析業務では、気象災害や自動車の事故をはじめとした物理的な事象に対するリスク評価や、事故の予防策を講じることを目的とした分析の機会が多くあります。特に気象や移動情報などを分析対象として扱う場合には方向データを扱う機会も少なくないのですが、定量的な活用や有効な統計的解釈ができていない点を課題として感じていました」と経緯を語る。

方向データに対して、既存では抽出できていなかった特徴の抽出や定量的評価を可能とすることで、リスク評価や予測の改善、高度化を図りたいというのが、三井住友海上の目的だ。

実数値データの定義がそのままでは通用しない「方向データ」の難しさ

方向統計学は、「方向」として表される観測値を含むデータ、いわゆる「方向データ」を扱う統計学の研究分野だ。例えば、2次元における方向としては、石川さんが扱う気象災害に影響を与える風向や、自動車事故における自動車の移動方向、生物学における地上動物の移動方向などが挙げられる(図1)。

図1:方向データの例。風向や動物の移動方向などの方向データは角度で表される。

「アナログ時計の短針からイメージを広げて、24時間で一周する時計の針のようなものを想像してみてください。医学における『心臓発作が起こる時刻』なども、2次元平面における方向として表現可能であることが分かるでしょう」と加藤は説明する。

私たちの身の回りは、さまざまな「方向」で溢れている。3次元ユークリッド空間では化学に現れる分子のねじれ角、地震学で扱う断層の動く方向、天文学で観測される星の方角など枚挙にいとまがない。さらに、多次元ユークリッド空間における方向の観測も、言語処理や人口統計学などで議論されている。

こうした方向データを扱う方向統計学は、近年、機械学習などにも広がりを見せている活発な研究分野だ。だが、統計解析をするうえで、一筋縄ではいかないのが方向データの特性でもある。「じつは、方向データには、統計学が主に対象としている実数値データのための解析手法をそのまま使うことができないという問題があります」と加藤は言う。

例えば、統計学における最も基本的な統計量に平均や分散があるが、実数値データの平均や分散の定義をそのまま方向データに用いると、不自然な定義となってしまう(図2)。確率分布、回帰モデル、時系列モデルなど実数値データのためのほとんどの統計モデルも、方向データにそのまま応用することは一般には適切ではない。方向データを解析するための統計手法の発展は、統計学における重要な研究課題となっている。

図2:方向データ解析における問題点。方向データの統計解析では、実数値データのための統計的手法をそのまま用いることができない場合がある。例えば図のように、2つの角度(-3と3)の実数値データにおける標本平均は(-3+3)/2=0と計算できるが、0を“角度の平均”とするのは自然な定義とは言えない。

特に、方向データについては、正規分布に相当するような実用性と統計的な扱いやすさを併せ持つ確率分布がなく、方向データのための確率分布の研究は、方向統計学において最も重要な研究テーマの一つと見なされてきた。

加藤は、今まで着目されていなかった「コーシー型」の確率分布に着目し、既存の確率分布では成り立たない多くの扱いやすい性質を持つ確率分布を提案した。また、他にも方向データのための回帰モデルや時系列モデルに関する研究結果がある。

大学院でマクロ経済の実証研究や、民間企業でデータ分析に従事してきた石川さんは、統数研の公開講座に参加することも多く、その際に統数研が共同研究を募集していることを目にし、方向統計学の分野において先端的な研究に取り組んでいる加藤に共同研究のパートナーとして白羽の矢を立てたという。

方向統計・時空間データ解析・ベイズ統計3つの分野のクロスポイント

今回のプロジェクトではまず、方向データの一つである「風向データ」を用いて時空間の関係を定量的に評価できる手法の開発を進めている。ここでは、2023年5月に日本気象学会の春季大会で発表した成果を紹介しよう。観測機器が設置された地点における気象情報から、未観測地点における気象情報を補完する問題を考えるものだ。

この研究では、国内の風向データに対して射影ガウス過程のパラメータの事後分布を推定し、推定対象地点から除外した検証地点に「クリギング」と呼ばれる補完手法を適用することで、射影ガウス過程による日本の風向の傾向と補完値の精度について考察した(図3、4)。

図3:パラメータの事後分布とトレースプロット。気象庁が公開しているアメダスの日次単位での地点別最多風向データを対象に、MCMC(マルコフ連鎖モンテカルロ法)を用いて射影ガウス過程と時空間相関係数のパラメータを推定した。上段は射影ガウス過程における横方向、下段は縦方向の平均パラメータの事後分布(左)とそのサンプルを示すトレースプロット(右)。横方向では、事後中央値は-0.243となっており、観測期間において全体的に風は西から吹く傾向であることを捕捉している。また、サンプルは-0.243付近で集中しており、収束した事後分布を得ることができていると考えられる。縦方向での事後中央値は0.221となり、観測期間において風は北から吹く傾向であることを捕捉している。サンプルは0.221 付近で集中しており、縦方向においても収束した事後分布を得ることができていると考えられる。 図4:推定した射影ガウス過程による補完値の精度評価。気象庁が公開しているアメダスの都道府県別の38地点の最多風向データ(2022/4/1~4/7)から推定した射影ガウス過程を用いて、2022/4/1の検証地点9地点の風向を補完した。地図上の赤い矢印は観測された最頻風向、青い矢印は射影ガウス過程のクリギングにて補完した最頻風向を意味する。下表は検証地点9地点での補完精度を評価する評価指標APE(Average Prediction Error)の値。値が小さいほど実際に観測された値に対して補完の誤差が小さいことを意味する。他の観測地点から距離の遠い那覇では、他の地点と比較して補完精度は低い水準であることが分かる。

クリギングは、観測されたデータ間の空間的自己相関関係から予測や補完を行うもので、以前から風速などの実数値データには適用されていたが、方向データへの適用理論は2012年に初めて海外で発表された。統計ソフトウェアRのライブラリとして一般での利用が可能となったのは、2019年と近年のことだ。今回は、この最新の理論を国内の風向データへ適用した点で画期的と言える。

「射影ガウス過程を用いて仮想的に作成した未観測地点に対して風向を補完し、精度評価を行う取り組みは、われわれの調べた限り、国内で初めてです」と加藤は話す。

研究の結果、射影ガウス過程によるクリギングを実施することで、未観測地点に対する風向の補完値の算出が可能であることと、その補完精度の水準について確認ができた。だが、二人はこれだけではまだ納得していない。現行の手法では、風向の補完に用いる情報は各地点の風向、位置および時間のみであり、その他の情報を活用することで、補完の精度を改善できる余地があるからだ。

石川さんは「推定されたパラメータの事後分布や補完精度の傾向から判断すると、風向における空間的自己相関は距離に対して弱まりやすい傾向にあると考えられます。このような風向に対する地理的情報や、風速などの他の情報との関係を捕捉し、補完精度をより改善できるような統計手法の開発を行いたい」と先を見据える。

「風向」とその観測された「位置」「時間」から、その関係を「ベイズモデル」として表現する。それは言うなれば、「方向統計」と「時空間データ解析」、「ベイズ統計」という3分野の交差点にあたることから、広い知識が必要となる。

「私自身も勉強になるし、石川さんにも知見を深めてもらっています」と加藤が言えば、石川さんも「統計理論の数理的研究を行われている加藤先生から、厳密な統計的解釈や統計理論の最先端の状況を教えていただきながら理論研究と分析を進められる点に、協働の意義と感じています」と応える。

データドリブンな民間の研究動機が理論研究者にも好刺激に

統計数理研究所は研究活動のみならず、産業界との連携を積極的に推進している。共同研究以外にも、教職員による面談を中心とした学術指導や、研究所内に社員の座席を確保する「データサイエンス・リサーチプラザ」など、相手企業のニーズに応じてさまざまなプログラムが選べることが特徴だ(https://www.ism.ac.jp/sangaku/sangakurenkei.html)。

こうした活動は、社会貢献を目的として実施されるものである一方、教職員自身にもよい影響を与えている。

加藤は、このプロジェクトで初めて民間企業との連携を経験した。「若手の頃は大学や研究所との共同研究に忙しく、民間との共同研究まで手を広げる余裕はありませんでした」と明かす。だが、統数研の同僚には産学連携に参加している研究者も多く、次第に経験してみたいと考えるようになったという。そのような中、石川さんから提案された研究が興味深かったこともあり、今回の共同研究に取り組むことを決めた。

「大学や研究所の理論研究者は、過去の理論研究の結果をベースにして次の研究テーマを設定することも多い。これに対し、石川さんは初めに実データから、データの特徴を抽出する統計手法を開発したい、というデータドリブンな研究動機がありました。そのようなアプローチから理論を構築するのは民間研究者らしい視点で、私自身刺激になっています」と加藤は感想を述べる。

プロジェクトの今後について、石川さんは「今後、情報技術が発展するにつれ、より多様で多くの情報が蓄積され、活用されていくことが考えられます。多様なデータに対しても有効に活用できるように、より次元を拡張した3次元単位球面などの方向データに対する統計手法の開発や応用にも取り組みたいと考えています。ゆくゆくはこのプロジェクトで得た知見を自社事業のサービス向上や社会貢献に役立てられれば」と抱負を語る。

加藤もまた、「今回のプロジェクトで扱うデータは、方向だけでなく、さまざまな変数が同時に観測されている『多変量データ』であると同時に、実数値ではない『非ユークリッドデータ』でもある。今後は、未発展な分野であるこれらのデータのための統計理論の発展を目指していきたい」と語り、「論文になりそうなテーマが見つかったことも、当初は予期していなかった収穫です」と微笑む。

統数研と民間企業の協働によって生まれたシナジーが、社会課題の解決に大きな貢献を果たすことに期待したい。

(広報室)


ページトップへ