響き合う人とデータ―統数研プロジェクト紹介

第7回「公的統計ミクロデータ研究コンソーシアム」

公的統計のミクロデータ活用を促す基盤整備が始動

各界の学術研究において、「ミクロデータ(集計していない調査個票情報)」を用いた実証分析は、世界の主流になりつつある。日本でも統計法の改正によって、公的機関の保有するミクロデータの二次利用が可能になった。現行の利用手続きを見直し、セキュリティーや秘匿性の課題を解決しつつ、活用を促進することを目指し、統計数理研究所を中心とする官学のコンソーシアムが発足した。

利用者ニーズを吸い上げるコンソーシアムを立ち上げ

2016年3月、一橋大学の一橋講堂(千代田区)は、およそ200人の研究者らの熱気に包まれた(写真1、2、3)。開催されていたのは、「公的統計ミクロデータ研究コンソーシアム」の設立記念シンポジウム。全国の大学や研究機関のほか、データベンダーや統計ソフトウェア開発企業など民間企業からも参加者が集まった。希望者が殺到し、当初予定していた会場を、より大人数を収容できる同講堂へ変更したことからも、このテーマへの関心の高さが伺える。

写真1:2016年3月29日に開催したシンポジウムでのパネルディスカッションの様子。左が司会の椿広計統計センター理事長、パネリストは左から一橋大学経済研究所の北村行伸所長、神戸大学大学院経済学研究科の地主敏樹研究科長、総務省統計局統計調査部の千野雅人部長、SAS Institute Japanの堀田徹哉社長。 写真2:会場には約200人の研究者などが集まった。 写真3:情報・システム研究機構の北川源四郎機構長は「データ共有化と公的統計ミクロデータ」のテーマで講演を行った。

「公的統計」とは、国の行政機関や地方自治体など公的機関が作成する統計を指す。「ミクロデータ」は、その基になる個々の調査票データだ。このコンソーシアムは、公的統計ミクロデータを学術研究に利用する関係機関が共同で、データの提供側である政府と連携し、オンサイト施設を全国に開設するための課題を検討することを目的としている。

コンソーシアムを構成するのは、任意の国公私立大学や研究機関。情報・システム研究機構データサイエンス共同利用基盤施設社会データ構造化センターが事務局となり、総務省政策統括官、統計局、統計センターの協力を得て運営している。

統計数理研究所では、椿広計名誉教授を代表者とする官学融合の科研費研究として「公的統計ミクロデータの構造化と研究利用プラットフォームの形成」に取り組んでいる。目指しているのは、公的統計ミクロデータの利用効率と提供作業効率を向上させ、二次利用制度のプラットフォームを研究し、政府による実装を支援すること。コンソーシアムの設立もその一環である。

統数研からは、プラットフォーム設計・研究ユニットのリーダーとして岡本基リサーチ・アドミニストレーターが、またデータ構造化・標準化ユニットのリーダーとして山下智志教授が、それぞれこの研究プロジェクトに参画している(図1)。

▲岡本基リサーチ・アドミニストレーター ▲山下智志教授 図1:研究の推進体制。

二次利用の促進に不可欠なセキュリティー環境の整備

公的統計ミクロデータの研究利用が推進されるようになったのは、2007年に統計法が改正され、公的統計が「行政のみならず社会全体で利用すべき情報基盤」と位置づけられてからのことだ。09年に改正法が施行されて以降、学術研究など公益目的の利用であれば、調査票情報の二次的な利用が認められている。

岡本は「特に最近は、集計されたデータではなく、大規模ミクロデータに基づく研究を推進する機運が高まってきました」と話す。例えば、5年前には厚生労働省の「ナショナルデータベース(NDB)」の研究利用が開始されて話題を呼んだ。100億件を超す診療報酬明細書(レセプト)や、およそ1億7000万件に上る特定健診などの医療ビッグデータは、生活習慣病の改善や予防医学など、さまざまな医療研究に役立つと期待されている。

しかし、統計法改正から10年近くたったいまも、公的統計ミクロデータの二次利用は思うように進んでいないのが実情だ。その理由の一つに、セキュリティーの問題がある。

研究者が調査票情報の提供を受けるためには、データを操作する部屋の入退管理や保管するキャビネットの施錠、外部ネットワークからのシャットアウトなど、一定の要件を満たさなければならない。このため、共同研究室を割り当てられている若手研究者や施設の都合でセキュリティー強化が難しい組織に属する研究者などは、データ利用の申請ができなかったのである。

「人文社会科学分野の国際的なジャーナルでは、すでにミクロデータを用いた実証分析が主流で、それなしに論文が掲載されることはほぼ不可能になっている。日本は一刻も早く利用環境を整える必要があります」と岡本は指摘する。

リモートアクセス型拠点を増やしセキュリティーと利便性を両立

利用促進とセキュリティー確保の両立は、ミクロデータを活用するうえで避けて通れない問題だ。その解決に向けた第一歩として、2010年には機構とデータの提供元である統計センターが連携協定を結び、セキュアな環境を整えた「オンサイト解析室」が開設された(写真4、図2)。研究者は、所定の手続きを経てこの場所へ赴けば、匿名化したミクロデータの提供を受けることができる。

写真4:統数研内に設置されたオンサイト解析室。高いセキュリティー環境を実現している。 図2:現在のオンサイト利用施設のイメージ。

ただ、オンサイト解析室はこれまで、全国で統数研と一橋大学の2ヵ所にしか設置されていなかった。また、ミクロデータを研究者に直接提供する現行の方法はリスクが高く、改善が急がれる。

そこで、今回の研究で目指しているのが、リモートアクセス型のオンサイト拠点を全国に展開するとともに、セキュリティーをホスト側で一元管理するネットワークの整備だ(図3)。

図3:全国ネットワーク整備のイメージ。

現行のオンサイト解析室の設計から運営管理までを手がけてきた岡本は「こうしたネットワークを構築すれば、セキュリティーを強化しつつ、研究者にとってデータを活用しやすい環境をつくることができます」と説明する。この6年間のオンサイト解析室の運営実績から見えてきた課題を、新たなネットワークのルールづくりに反映させるつもりだという。

総務省は当面、マスタープランに賛同するコンソーシアムメンバーの大学や研究機関を対象として、10カ所程度のオンサイト拠点を設置することを目指す。手始めとして、2016年度中に4拠点を結んでリモートアクセスによるネットワークの試行運用を開始する予定だ。

欠損データの補完や構造化に統数研の知見を生かす

一方、これまでミクロデータの二次利用が進まなかったもう一つの理由として、データの質の問題が挙げられる。集計をしていない生のミクロデータには欠損値や異常値が混在し、そのままでは分析に使えない。欠損値を補完し、異常値は補正し、データベース間の連環をさせるなど、利用可能なデータに落とし込む必要がある。このため、収集したミクロデータをそのまま提供したのでは、利用する研究者は、分析を開始する前に前処理に多大な時間を費やさなければならない。この点を解消しようというのが、山下の率いるデータ構造化・標準化ユニットの取り組みだ。

山下自身、これまでに政府からの委託を受け、公的統計ミクロデータを活用して、さまざまな分析を手がけてきた実績がある。ミクロデータを集計して分析するのではなく、ミクロデータを直接に統計モデルのパラメータ推計に用いる「非集計分析」と呼ばれる手法だ。

例えば、九州新幹線の計画時に、国土交通省の所管する「全国幹線旅客純流動調査」のミクロデータを分析して、需要予測が可能となった。この調査は、鉄道や航空機、自動車といった交通機関別の流動調査ではなく、個人に着目し、旅行の出発地からどのような交通機関を乗り継いで、どこへ到着したかを調べたものだ。

図4:山下が過去に手がけたミクロデータ活用の事例。国土交通省の所管する「全国幹線旅客純流動調査」のミクロデータから、九州内の周遊状況を分析した。

このミクロデータをもとに、ランダム効用理論を用いたロジットモデルをつくり、人が行動を決める要因である「確定効用項」を求める。すなわち、目的地に至るまでの経路と手段が、何を重視して選択されたかを推計する。そこから、九州新幹線ができて所要時間や費用が変化した場合に、どのくらいの人数が利用するかを導き出したのである(図4)。

公的統計によってはデータの欠損が多く見られるものがあり、山下は事前にその調整も手がけた。また、前述のNDBの構築にも関与し、統数研の医療統計チームと連携して欠損値補完の新たな手法を作り出した経験がある。

「一口に公的統計と言っても、所管する行政機関によって精度にバラツキがあり、また従来のデータ構造化の手法も分野によって異なるケースがあります。欠損を整えたり、手法を合併したりするのも統数研の役割です」と山下は話す。山下のユニットでは、今後、構造化に対する利用者のニーズ把握に努めるとともに、高速アルゴリズムの開発にも力を入れていくという。

日本の産業をパワーアップ政策へのフィードバックも

データの構造化に関しては、「名寄せ(リレーション)」も大きな課題だ。一人の個人や一つの法人のデータが複数のデータベースに収載されている場合、名寄せができればデータ活用の幅は飛躍的に広がる。だが、ここには「秘匿性」というデリケートな問題が横たわる。

これから展開するリモートアクセスによるオンサイト拠点ネットワークに、秘匿性を過度に保護するルールを設定したのでは、利用者にとって使いづらいシステムになってしまう懸念がある。その半面、利用者側にも、取得したミクロデータを集計する際に、秘匿性を確保するスキルが求められる。岡本は「今回のコンソーシアムは、利用者の立場である大学にも参画してもらっていることがポイントです。利用者の意見を吸い上げて、落とし所を考え、合意を形成していきたい」と抱負を述べる。

山下は「ミクロデータに基づくエビデンスがあれば、民間プロジェクトが進めやすくなるなど、日本の産業パワーにも貢献するでしょう。また、政策へのフィードバックも期待できる。社会との二人三脚で、複雑なステークホルダーの思惑を整理するのがわれわれの使命だと思っています」と力強く語った。

(広報室)


ページトップへ