響き合う人とデータ―統数研プロジェクト紹介

第32回「時空間データ解析プロジェクト」

時空間データの解析手法を開発し、社会課題の解決に寄与

新型コロナウイルス感染症や熱中症といった社会リスクへの対策を検討するうえで、人々の移動や場所による温度変化など、時空間データに基づいて要因を分析するニーズが高まっている。2022年8月、統計数理研究所のリスク解析戦略研究センターに誕生した「時空間データ解析プロジェクト」の研究内容の概要を紹介する。

幅広い時空間データの統計モデリングにより各種要因の影響を分析

近年、センサー観測技術の発達により、さまざまな「時空間データ」が収集されるようになった。時空間データとは、位置情報と時刻情報を併せ持つデータのことだ。例えば、人工衛星による観測では、気象はもちろん地表や地中の温度、森林・水域・都市域といった地表面の状態などが分かる。アメリカのGPSや日本の「みちびき」などのGNSS(全球測位衛星システム)からは、人やモノの正確な位置情報も取得できるようになった。

また、地図情報などのオープンデータ化も進みつつある。自由に地図を編集・利用できる「オープンストリートマップ」や、国土交通省が推進する3D都市モデル「PLATEAU(プラトー)」などはその一例だ。

さらには、即時的にデータ更新がなされる態勢も整ってきた。新型コロナウイルス感染症に関して言えば、厚生労働省や自治体によって、新規陽性者数や重症者数、死亡者数などのデータが日々更新されている。

統数研のリスク解析戦略研究センターに誕生した「時空間データ解析プロジェクト」では、こうした時空間データを基に、統計モデルを開発して解析し、社会リスクの要因を解明したり、今後の動向を予測したりする研究を幅広く手がける。これまで統計的機械学習研究センターの「都市インテリジェンス研究プロジェクト」で進めてきたテーマの一部を独立・発展させるべく設けられたプロジェクトだ。

▲村上大輔助教 ▲松井知子教授

スタート時点のメンバーは、都市インテリジェンス研究プロジェクトからリーダーの松井知子教授と村上大輔助教、そして「環境情報に対する統計解析手法開発プロジェクト」から船渡川伊久子准教授の3人がいずれも兼務で着任。時空間データ解析プロジェクトのリーダーは村上が務める。

時空間データに統計モデルを適用する意義とは何か。コロナの陽性者数の要因分析を例に挙げると、国や自治体などが状況に応じた政策を検討するとき、観測された生のデータだけでは役立てにくい。なぜなら、陽性者数がどのような要因の影響で日々上下しているかは、陽性者数データだけではわからないからだ。

また、自治体による報告の遅れや入力ミス、検査を受けていない無症状感染者などによって、観測される陽性者数は上下してしまい、必ずしも正確とは言えない点もまた問題である。

「統計モデルを当てはめることで、まず、密集や通勤、政策の影響といった説明可能な要因と、入力ミスなどのノイズをきちんと分ける。さらにそのうえで、説明可能な要因について解析を行えば、政策検討に役立つ知見を得ることができます」と、村上は説明する。

密集・密接によってどれだけ陽性者が増えたか。あるいは、通勤の抑制やマスクの着用でどれだけ減ったか。それらを定量的に評価することで初めて、有効な「次の一手」を考えるよりどころとなるのだ。

熱中症のリスク対策に役立つ「熱波」の発生を予測

時空間データ解析プロジェクトが、都市インテリジェンス研究プロジェクトの成果を踏まえ、これから取り組むテーマの一つが「熱波の予測」だ。

ここ数年、大きな社会問題となっている地球温暖化や都市のヒートアイランド現象は、時空間データ解析が求められる事例の一つ。機械学習による統計モデルの開発を得意とする都市インテリジェンス研究プロジェクトではこれまで、都市の気候などに関する時空間モデリングの方法について検討してきた。2013年から18年までの5年間、時空間モデリングに関する国際ワークショップを開催した実績もある。

熱波の予測には、気象庁の地域気象観測システム「アメダス」の観測データと、地球観測衛星から送られてくる地球表面温度の画像データを利用する。両方のデータを使うのは、それぞれに一長一短があるからだ。

というのは、アメダスの観測局は東京都内に8カ所しかない。このため、気象観測データは1時間間隔ではあるものの、カバーできていないエリアが多く存在する。一方、衛星から取得された地表面の熱画像データは、1日あたり4時点のみであるが空間解像度は高い。その半面、雲で遮られるとデータが取得できず、曇りの日などまったく得られないこともある。

そこで両者を組み合わせて、日々の気温の空間分布を予測する。「さらに最新の統計モデルを使って解析することで、都心部は高温になる確率が高い、沿岸部は温度のばらつきが大きいといったさまざまな特徴が見えてきます。そして、これを効果的に計算する手法が重要となります」と村上は話す(図1)。

図1:上左図に示すように気象観測データは地点数が限られている。一方で上右図に示すように衛星観測データは、空間解像度は高いが、雲などにより観測値が得られる地点・時点は制限される。そこで両方を考慮した時空間モデリングを行った。極端な熱波などもとらえるために、Tukey g-and-hモデルを用いた。それにより地表面温度の時空間補間やその特徴(平均、分散、歪度、尖度)などを面的に推定した。

時空間データ解析プロジェクトでは、都市インテリジェンス研究プロジェクトと連携して、この時空間モデルの効率的な解析・計算手法について研究を進める。

暑さに関連する“つぶやき”を気温予測の補正に活用

都市インテリジェンス研究プロジェクトではまた、Twitterデータから「ジメジメ」「ムシムシ」「熱中症」「だるい」「暑い」「水分補給」といった暑さに関連するキーワードを含むツイート(Heat-tweet)を抽出し、それがどんな気温のときにどんな場所で発生しやすいかを調べた。その結果を気温予測の補正に活用するのだ。

ただ、こうしたHeat-tweetはあくまでも個人の感覚に基づくものであり、本当に気温と連動しているかどうかは分からない。そこで村上は、Heat-tweetの起こり方をモデル化し、8月1カ月間の日変動と平均的な1日の時間変動の観測値と比較した(図2)。

図2:Heat-tweetの起こりやすさをプロットした上の図と、気温と気温変化をプロットした下の図を比較すると、日別では気温がHeat-tweetに相関していることがわかる。一方で、時間別でみると気温よりもむしろ気温変化がHeat-tweetと強く相関していることが確認できる。

その結果、Heat-tweetの起こりやすさは、気温の日変動とはおおむね一致。しかし、1日のうちで見ると、気温が最も高くなるのは午後2〜3時ごろであるのに対し、Heat-tweetは午前10時ごろに一番多くなっており、時間変動ではズレが生じていた。

Heat-tweetが起こりやすいのは、気温が高い時間帯ではなく、気温が急上昇する時間帯だ。「1時間前に比べてどれだけ温度が上昇したか」を表すグラフは、Heat-tweetの発生数のグラフとピークの位置がほぼ一致し、急に暑くなったときにつぶやきが増えることが分かった。

この結果を踏まえ、気象観測データを補間したところ、補間をしないデータだけを使った予測よりも実際に近い予測ができたという(図3)。

図3:気象観測データとHeat-tweetを活用した気温の時空間補間を空間統計手法により実施した。Twitterを活用することで、都心における昼の顕著な気温上昇が捉えられた。例えば中段左は気温観測データだけを使った気温分布の予測結果で、右はHeat-tweetも考慮した結果だが、後者の方が都心付近の気温上昇が捉えられていることが分かる。

「東京都心の地表はコンクリートで覆われているので、郊外よりも温度が高くなります。しかし、少ない観測点のデータから予測した地表温度の分布図では、郊外の北側の温度が高くなってしまいました。これにHeat-tweetのデータを補間すると、都心ほど高く、妥当な結果となりました。実際には、この補間を効率的に計算する手法が重要となります」(村上)。

標準的な統計解析では、気象観測データとTwitterのようにまったく異なる複数種類のデータを一つのモデルで扱うことは少ない。気温データだけを使うのであれば、「正規分布」を仮定する基本的な統計モデルで十分であるし、Twitterデータだけでも特定の分布を想定すれば足りる。だが、二つのデータを組み合わせて予測しようとすると、難易度が急上昇する。

都市インテリジェンス研究プロジェクトでは、気温データとTwitterデータの背後に共通の空間分布パターンがあると仮定したうえで、機械学習でよく使われるガウス過程を応用することで気温の時空間予測を行った。

気温と暑さ関連Twitterの空間分布をできる限り正確に予測するようにモデルのパラメータを調整することで「気温は近い場所では類似する」「短時間で大きくは変わらない」「土面より舗装道路やコンクリート面のほうが高温になる」といった各種要因の影響度を推定した。それにより予測精度を高めている。

時空間データ解析プロジェクトでは、この研究成果を受けて、これらをさらに効率的に計算する手法を研究開発していく。

こうした手法は、さまざまな分野への応用も期待できる。プロジェクトでは例えば、万引などの犯罪がどういう場所で起こりやすいかを推定する「犯罪分析」や、住宅地価がどのように決まるかを推定する「不動産価格の要因分析」などにも着手している。

計算負荷の低減に効果絶大な新手法をフリーソフトで提供

時空間データを解析するときに、最も苦労するのはコンピュータの計算負荷をいかに低減するかだという。「大規模な時空間データを柔軟に統計モデリングすることは、計算コストの観点で容易ではありません。例えば住宅地価の場合でも、データ数が膨大であるため、計算負荷が大きくなってしまいます。精度と計算効率の両立が重要な課題です」(村上)。

熱波の予測の際にもみられた「近隣の値は類似する」という性質は空間相関と呼ばれ、空間データの最も基礎的な性質とされる。しかし、空間相関を加味すると、計算コストは標本数の3乗のオーダーになることが知られている。例えばデータ数が2倍になると計算コストは2の3乗、つまり8倍である。これは、空間相関関係を記述する標本数×標本数の行列の逆行列を評価しなければならないからだ。そのため標本数が大きい場合は、途中でコンピュータがフリーズして回らなくなってしまうこともよくあるという(図4)。

図4:従来手法ではサンプルサイズの増加に伴い計算時間が急増する。一方で、提案した大域的な近似手法を行うと、計算時間の増加が緩やかになり、標本数が10万の場合でも数分程度で推定が終わる。

このため、主要な空間成分のみを用いて空間相関パターンを近似することで、負荷の軽減を図る。村上が提案した近似手法を導入したところ、計算時間の増加が緩やかになり、標本数が10万の場合でも、数分程度で推定が完了することが確認できた(図5)。

図5:提案手法をわが国の住宅地価の要因分析に応用した。この図の定数項の推定結果からは、東京や大阪で住宅地価が高いことが分かる。駅までの距離の影響の推定結果(右上)からは、関東・近畿の広域では駅に近いほど地価が高いという傾向が強いことが分かる。バス停距離の影響の推定結果(右下)からは、北海道の鉄道が少ないエリアでバスの影響力が強いことが確認できる。

村上は2017年に、開発したアルゴリズムを統計分析フリーソフト「R」のパッケージ「spmoran(エスピーモラン)」として公開。現在も拡張した手法を開発するたびにアップデートを欠かさず、公開講座などを通じて活用方法の普及にも尽力している。すでに、環境分野や都市計画分野の解析などに世界中で広く活用されつつある。

「都市の抱える問題は、感染症のパンデミックや熱中症といった健康被害から災害、事故、渋滞、住宅まで非常に多岐にわたっています。プロジェクトで開発した統計モデルを研究者や実務者に提供することで、そうした問題の解決に寄与していければ」と村上は抱負を語る。

村上と以前から共同研究を進めてきた松井は「統数研は伝統的に時系列解析ですぐれた成果を出してきましたが、近年はやや手薄になっています。その意味でも、村上先生との連携を強化できたらと思っています」と話す。統数研全体が、若きプロジェクトリーダーの活躍に期待し、応援している。

(広報室)

新型コロナウイルス感染拡大防止のため、本インタビューはオンラインで行われました。


ページトップへ