響き合う人とデータ―統数研プロジェクト紹介

第24回「新型コロナウイルス対応プロジェクト」

縦横無尽の統計解析で感染の実態と要因を炙り出す

世界中を不安と混乱に陥れた新型コロナウイルス感染症。2020年3月、統計数理研究所は「新型コロナウイルス対応プロジェクト」を立ち上げた。所内・所外から有志の統計学者約20人が自発的に集まり、さまざまなデータ解析を行っている。

新型コロナ感染症の対策に立ち上がった統計学者たち

▲松井知子教授 ▲椿広計所長

「新型コロナウイルス感染症のパンデミックという前例のない、国と世界の危機的事態を前に、統計数理やデータ解析を専門とする研究者として何かできないか、一人ひとりが真摯に考え、迅速に行動に移しました」。統計数理研究所における「新型コロナウイルス対応プロジェクト」のリーダーを務める松井知子教授はそう振り返る。

2020年1月、国内で初めて新型コロナウイルスの感染者が確認された。その2カ月後には世界保健機関(WHO)がパンデミック(世界的大流行)を宣言。社会不安が全世界を覆った。

そんなとき、いち早く動き出したのが世界の統計学者たちだ。松井も、その一人だった。椿広計所長に相談し、すぐに統数研として独自にプロジェクトを起こし、この未曾有の感染症に立ち向かうことを決定。「プロジェクトの趣旨に賛同する研究者たちが、所内外から自然に集まりました」と椿は言う。現在は疫学モデル、地理、データ計測、検定などさまざまなジャンルを専門とする20人を超えるデータサイエンティストたちがプロジェクトを支える。

とはいえ、誰もが経験したことのない事態だ。どこにどんなデータがあり、どれが信頼できるものなのか。まずはデータを探すところから始まった。解析結果を対策に生かすためには、統計数理だけでなく制度設計の知見なども必要。各自が専門知識を持ち寄り、多角的な視点で進めなければならない。オンライン会議システムを使って当初は毎週行っていた打ち合わせでは、「3時間で議論が尽きることはまれで、5時間に及ぶこともあった」(松井)。今も隔週で情報交換を続けている。

感染症対策の鍵を握るのは、正確な状況把握だ。統数研のプロジェクトでは、東京都公式ホームページ、Jag Japan社などの情報提供ページ、JX通信社の有料ページなどから陽性者数、死亡者数、PCR検査数などのデータを日々収集。また、感染拡大に関係すると考えられる人の移動や密集、土地利用のデータなども集め、ミクロからマクロまでさまざまな階層でデータ分析を進めている。

ホットスポットの正確な範囲や感染の広がり方を分析

▲鈴木和幸客員教授

プロジェクトの研究テーマの一つは、「東京都市区町村ごとの感染状況の解析」だ。統数研の鈴木和幸客員教授は、都が市区町村の累積陽性者数のデータを公表し始めた4月1日以降、1日も欠かさずホームページから手作業で数字を拾い、パソコンに入力してデータを収集、集計してきた。

市区町村ごとに時系列で陽性者数の推移をグラフ化すると、都全体のグラフからは見つけにくい現象を捉えることができる。例えば、4月から8月までの10万人あたりの陽性者数の推移(7日間の移動平均)を折れ線グラフにしたところ、都全体では陽性者が漸増して8月2日にピークを迎えるのに対し、新宿区では6月16日の週を境に急増し、都全体よりも半月早い7月19日(単日では16日)にピークを迎えていたことが明らかになった(図1)。

図1:東京都と主な区の陽性者数の推移。新宿区では都全体のピークより約半月前に陽性者の急増が始まっていたことが分かる。

ものづくりの品質管理や信頼性を専門とする鈴木は「製品の開発・生産工程、検査、市場クレームの関係は、コロナ禍における日常生活、検査態勢、医療体制に置き換えて考えることができます。品質管理の手法が役立つのではないかと思います」と話す。

鈴木の集計したデータは、他にもさまざまな分析に活用されている。岡山大学の石岡文生准教授が手がけるのは、「陽性者の空間集積性に関する分析」だ。空間集積性分析とは、地理・空間データにおいて局所的に高い、または低い観測値を示す場所を統計的根拠に基づき評価するもので、疫学や環境学、犯罪学などさまざまな分野で活用されている。この手法では、高い観測値を示す場所を「ホットスポットクラスター」と呼ぶ。

プロジェクトでは、都内にホットスポットが存在するかどうか、存在するとすればどの範囲までかを明らかにする手法を開発した。

メディアなどでよく目にする累積陽性者の色分け地図は、階級区分の決め方によっていかようにも変わるにもかかわらず、濃い赤色などで示された部分がホットスポットであるかのような印象を与えがち。統計的根拠に基づき、客観的に判断できる情報はまだあまり世の中に出回っていないのが実情だ。

そこで、プロジェクトでは「空間スキャン検定」の手法を用いて日々のホットスポットの検出を試みている。分析対象地域なら東京都53市区町村の場合と23区に限定した場合、また陽性者数も累積陽性者数と新規陽性者数に対し、その地区の居住人口や労働人口、人流などを加味するなど多面的に分析。空間スキャン検定も数種類を適用している。

この分析から、23区の南西部に有意なホットスポットが検出された。また4〜6月と7月以降では傾向に変化が見られ、後者では新宿区や中野区を中心とする少領域がホットスポットとして検出された。

多摩大学の久保田貴文准教授は、統計ソフトRのパッケージ「shiny」を用い、任意の状況下でのホットスポットを検出するためのアプリケーションを開発。これにより、実際の陽性者数の多いエリアだけでなく、その周辺も含むエリアがホットスポットであることが分かった。こうした結果は、政策決定の際のエビデンスともなる。

椿もまた、鈴木の収集した日次陽性者数データを基に、「1人の患者が何人に感染を広げるか」という「実効再生産数の簡易推定」を自ら手がけている。

陽性者数は検査で陽性と判定された人数であり、感染していても検査を受けていない人の数は含まれない。PCR検査数が少なかった当初の陽性者数は、実際の感染者数より大幅に少なかったと考えられる。つまり、PCR検査の普及とともに陽性者数が激増したからといって、感染者自体の数が急に増えたとは限らない。「本当の感染者数のうち陽性者数の比率は4月と現在で大きく変化していても、日次変化率は感染者数と陽性者数ではあまり変わっていないとも考えられます」(椿)。

陽性者数の報告は曜日や休日の影響などで大きくばらつくため、まず移動平均値(一定期間の平均値)のような平滑化処理を行い、日次陽性者数の対数変化率を求めたうえで実効再生産数を推定した。

松井は同様に東京都市区町村の陽性者数の日次データを利用し、4月から8月までの各週の陽性者数をマルコフ連鎖でモデル化。各週のモデルの近さを検定することによって、週ごとの特徴を分析した(図2)。これにより、「クラスター感染が起きて急に陽性者が増えた場合」「市中感染でじわじわと陽性者が増えた場合」などを区別することが可能になり、感染状況の解析に役立つ。

図2:各週の市区町村ごとの陽性者数。棒グラフのヒートマップは各市区町村を表す。下のグラフがモデルの近さを検定した結果。各週を互いに比べ、差が小さいほど薄い色で示した。例えば21週目は、1〜3週目、14〜18週目、20週目と特徴が近いことが分かる。

携帯電話の位置情報から人口密度と感染の関係を解析

▲下野寿之外来研究員 ▲村上大輔助教

このほか、プロジェクトでは「滞留人口データを用いた感染状況の解析」も手がけている。データの可視化を得意とする統数研の下野寿之外来研究員は、NTTドコモから「500mメッシュの空間に1時間に何人がいるか」という携帯電話の位置情報データの提供を受け、新しい集計方法を考案。都道府県ごとに滞在者がどのようなメッシュにいるか、100分位点、20分位点、4分位点が分かる形にグラフ化した(図3)。これによって特定の都道府県において、過密したメッシュに人が出入りしていることが分かり、密集の影響を考慮した新型コロナウイルス感染症対策を考える際の参考になる。

図3:全国の都道府県ごとの過密状況。縦軸は500mメッシュにいる人数、横軸は都道府県。各都道府県の滞在者がどのようなメッシュにいたかを示す。北海道、東京、神奈川、愛知、大阪、福岡は、2万人以上のメッシュが存在する。

また、統数研の村上大輔助教は、商業地の人口密度と陽性者数のデータから、「人口密度が陽性者数に及ぼした影響」を分析している(図4)。その結果を見ると、3月上旬の段階ではまだほとんどの地域で「密であること」の影響があまり見られないものの、3月末の3連休を経て全国的に密な地域が増え、陽性者が急増。その後は緊急事態宣言に伴う自粛により全国的に密であることの影響が少なくなったとはいえ、東京などでは密度が陽性者数の増加に影響を与える傾向が続いていることが分かった。村上は、人口密度ばかりでなく、どんな要因が絡んでいるかの解明に注力している。

図4:人口密度が陽性者数に与えた影響。3月上旬にはまだ人口密度が陽性者数に与えた影響は小さかったが(左)、3月末の段階では人口密度の影響が増大した(右)。

刻々と発表される世界の論文を読み解いていく

▲船渡川伊久子准教授

新型コロナウイルス感染症が流行して以降、膨大な数の学術論文が出版されている。疫学・生物統計を専門とする統数研の船渡川伊久子准教授は、医学総合誌の「NEJM(ニューイングランド・ジャーナル・オブ・メディスン)」「ランセット」、科学総合誌の「サイエンス」「ネイチャー」などのトップジャーナルに次々と公開される論文を読み解いている。

「各国で感染状況が刻々と変化するなか、査読前論文や有力研究グループの論文が脚光を浴びました。重要な政策決定に感染症数理モデルが大きな役割を果たし、モデリング研究が多数見られます」(船渡川)。

厳格な抑制政策を採った中国、死亡者数が増え続けた米国、厳格でない行動制限でも死亡者数を抑えている日本など、政策や感染状況には地域差があるため、一般化にも注意が必要だ。「例えばマスクの着用など、科学者の間でさえ意見がさまざまで、まだ決定的な結論が出ていない問題が多いのが今回の特徴です」(船渡川)。

ちなみに、マスクの問題については、米国大統領選をめぐり共和党支持者と民主党支持者の意見が対立したことから、それぞれの支持層の多い州の陽性者数を分析する研究を鈴木が進めている。

新たな感染症にも有効なエビデンスとなる中核技術へ

統数研では、ここで紹介した分析研究や文献調査の結果などの成果を日本疫学会や日本感染症学会など関連学会に限定して情報提供していく方針だ。ただ、新型コロナウイルス感染症は現在進行形で状況が変化しており、研究も発展途上であることから、誤った情報を提供することには大きなリスクがある。そこで、統計の専門家である統数研の所員による事前レビューを受けるためのレビューサイトを作成。レビューが完了した成果は、学会報告や公開用サイトを通じて順次発信していく予定だ。

すでに、研究内容の一部は文部科学省科学技術試験研究委託事業「数学アドバンストイノベーションプラットフォーム(AIMaP)」が2020年10月31日に開催した研究交流会「感染症に立ち向かう数理科学」で発表した。また、今年は統計数理研究所和文誌「統計数理」の特集「公衆衛生(新型コロナウイルス感染症)」や、MDPIの発行するオープンアクセスジャーナル「エントロピー」の特集号にも論文を投稿する予定だ。

さらに、プロジェクトから派生した「COVID-19のマルチスケールな時空間解析と情報提供基盤の構築」と「確率的機構モデルを用いた新型コロナウイルス流行分析」の2件の研究が、情報・システム研究機構(ROIS)のCOVID-19対策研究プロジェクトに採択された。

松井は「このプロジェクトで開発した統計数理の技術が、新型コロナウイルスに限らず、今後発生するであろう新たな感染症対策の中核技術となるように、メンバー一同が協力して活動を進めていきたい」と抱負を語った。

(広報室)

新型コロナウイルス感染拡大防止のため、本インタビューはオンラインで行われました。


ページトップへ