響き合う人とデータ―統数研プロジェクト紹介

第16回「公的調査データの統計開示抑制」

調査票情報を安全に提供する持ち出し審査基準を開発

政策立案のために官庁が実施してきた公的調査のデータを学術研究にも活用しようとの動きが顕著になってきた。その大前提となるのが、調査協力者のプライバシー保護だ。統計数理研究所は、データの提供元である統計センターと連携し、研究者が全国の大学に設置されたオンサイト施設で調査票情報にアクセスして分析した結果を持ち出す際の安全性審査基準を策定。審査における経験則ルールを決定するとともに、研究者を支援するツールの開発を手掛けている。

提供対象の拡大で調査票情報の活用が進む

▲南 和宏モデリング研究系准教授

国勢調査や国民経済計算(GDP統計)、経済センサス(企業経済活動の実態調査)など、政府は長年にわたりさまざまな公的調査を実施してきた。その位置づけが「行政のための統計」から「社会の情報基盤としての統計」へ大きく転換したのは、2007年の統計法全面改正をきっかけとする。

これにより、国民が合理的な意思決定を行うための共有財産として、公的統計を活用する道が拓かれた。学術研究など公益目的に限り、調査票情報の二次利用が認められるようになったのである。

ただし、利用者である研究者には、データを操作する部屋の入退室管理や外部ネットワークからのシャットアウトなど、厳しい要件が課せられる。このため、研究室のセキュリティ環境によっては利用申請できないケースが少なくなかった。また、提供方法も、必要最低限のデータをDVDの形で渡されることから、使い勝手がよくなかった。

そこで、2010年に情報・システム研究機構とデータの提供元である統計センターが二次利用の普及・啓発に関する連携協定を結び、2012年に東京・立川の統計数理研究所内に「オンサイト施設」を開設。研究者は事前申請のうえで来訪し、調査票情報に直接アクセスできるようになった。

さらに今年度から、全国9カ所の大学などに設置されたオンサイト施設で、リモートアクセスの試行運用も始まった。今後は、施設を訪れた研究者が、シンクライアントからサーバにアクセスし、フルスペックのデータを用いて分析できるようになる。このことが、探索的・創造的な研究に資すると期待されている(図1、2)。

図1:公的統計情報へのリモートアクセスによるオンサイト利用では、従来に比べて利用申請が簡素化されるとともに、フルスペックのデータを活用できるようになる。 図2:オンサイトを訪れた研究者は国立情報学研究所の学術情報ネットワーク「SINET」を介して遠隔で中央データ管理施設のデータベースにアクセスする。

オンサイト施設利用での分析結果安全基準を作成

▲菊池 亮博士(工学)NTTセキュアプラットフォーム研究所

リモートアクセスを活用したオンサイト利用の体制を整えると同時に、より強化しなければならないのが、調査対象者の機密情報保護だ。例えば、高額商品の購買情報、家計の収入や土地などの資産額、雇用契約期間や仕事内容など、プライバシーに関わる情報が、公開された研究成果から漏洩することのないよう、慎重な取り扱いが求められる。

そこで、オンサイト施設で分析した成果物を外部に持ち出す場合には、その安全性・秘匿性のチェックを受ける仕組みを構築することとなった(図3)。統計センターの非常勤職員となり、その安全基準を作成したのが、統計数理研究所の南和宏准教授と、匿名化技術の研究で実績のあるNTTの菊池亮博士だ。

図3:オンサイト施設からのリモートアクセスによる分析結果の持ち出し手順のイメージ。研究者自身が、安全性審査を受けるまえにデータ秘匿処理を行う。

「今回の安全基準を策定するにあたり、まず二つの前提条件を決めました」と南は説明する。一つは、研究者は悪意の情報漏えいを行わない、と仮定すること。つまり、機密情報を含む分析結果が不注意によって論文に掲載され、第三者によって漏えいするケースを想定する。

もう一つは、研究者がデータの持出しを複数回行う場合、中間結果にも最終結果と同じ基準を適用すること。中間結果に対しては、論文に掲載しない前提で基準を緩和することも検討したものの、うっかり掲載してしまうミスを防止できないと判断し、この結論に達したという。

基準作成にあたっては、欧米諸国の統計開示抑制に関する「Eurostat基準(SDCハンドブック)」を参考にした。ここでは「安全性基準の作成は『どのような動物を入れるかわからない動物園の檻』を設計するようなもの」と汎用的な基準作成の難しさを説き、審査対象を標準的なデータ形式に限定している。南は「今回の基準でも同様に、対象を度数表や数量表、線形回帰係数および非線形回帰係数、パーセンタイル値などに絞りました」と話す。

同ハンドブックでは、実際の審査は「経験則」による一次審査、「原則ルール」による二次審査の2段階で行う。経験則は、明示的に記述されたルールで、非常に厳格なものだ。これに対し原則ルールは、データの意味や特徴を考慮し、個別の状況に柔軟に対応するもの。日本でもこの2段階審査の枠組みを採用することにした。

菊池博士は「安全性と利便性はトレードオフの関係にあり、完璧な基準をつくることは不可能。運用面でいかにバランスを取るかがポイントです」と話す。

経験則での原則は、@個票データは機密情報、A客体10の原則、B占有性の原則、Cグループ開示の原則の四つ。@の原則から、個票データの最小値、最大値の持ち出しは不可となる。Aは、個票値の推定ができないように客体数を10以上確保するというもの。Bは同様の理由で、いずれかの個票値の割合が全体の50%以上を占めてはいけないというものだ。またCの原則から、ある属性でグループ化された個票の90%以上が、別の属性に関して同一の区分に属することを禁ずる。

原則ルールでは、研究者が持ち出しを希望する分析結果を「複数の個票値を入力とする関数の出力」と捉え、関数の出力を使って個票値をどの程度特定できるのか、データの特性も加味して判定する。場合によっては経験則ではNGであっても安全であるような場合があり、そのような場合にも柔軟に対応するのが、原則ルールの目的だ。

申請者の負担を軽減するRツールを新たに開発

通常の分析結果は機密情報を含むことから、そのままでは安全性審査を通らない。このため、研究者は事前にデータの秘匿処理を行った分析結果を用意する。一方で、審査担当者は秘匿済みの分析結果を見ても、基準を満たしているか否かの判断ができない。

このため研究者には、審査用に説明資料を添付してもらうのだが、これが研究者にとって作業負担を増大させる要因となる。例えば、占有性ルールの審査で、全体の50%を占める個票値がないかどうかは、元の個票データから第一位、第二位の客体の値を抽出する必要がある(図4、5)。

図4:データ秘匿処理を施した分析結果を審査するには、研究者自身が説明資料を揃える必要がある。 図5:占有性ルールの審査では、分析データに加えて、第一位、第二位の客体の値を抽出して提出しなければならない。

また、秘匿化をするにも、集計表のうち占有性ルールを侵害する数値を持つセルだけを隠したのでは、行計や列計から復元できる可能性がある。この場合、秘匿セル変数の取りうる範囲が十分広くなるように、追加でセルを隠さなければならない(図6)。こうした処理を手計算で行うのはほぼ不可能だ。

図6:秘匿化にあたっては、当該セル(この例の場合χ23以外に、χ11, 13, 21のセルを隠す必要がある。

実際に、オランダの統計局は表データの秘匿処理ツール「τ-Argusタウ アルガス」を開発している。南らは、日本にもこれを導入できないかと考えた。だが、調べてみると、このツールはどう考えても、分析者と審査者が同一でなければ使えないものだった。南はオランダへ赴き、直接、担当者に話を聞いた。ところが、意外なことにオランダでは安全性審査にはツールを使わず、審査担当者の経験に基づく審査が行われていた。

使えるものがないのなら、つくるしかない――。そう考え、南と菊池博士は統計ソフト“R”を使い、秘匿処理と説明文書が同時に自動で作成できる新たなツールの開発に乗り出した。

分析者と審査者をつなぐという思いで「SDCLink」と名付けた新ツールはすでに施行運用段階に達している。「SDC」はStatistical DisclosureControl(統計開示抑制)の略。近日中にオンサイト施設に導入するとともに、完成度を高めてRのパッケージとして提供することも計画しているという。

運用状況の課題をフィードバックし利用者の利便性を高める

▲阿部 穂日統計センター上席統計専門職

安全性基準の原則ルールは、裁判における判例のように、運用しながら実例を積み上げるなかででき上がっていくものだ。調査データ開示の事務を取り仕切る統計センターの阿部穂日上席統計専門職は、審査側の立場から次のように語る。「経験則ではどんなデータも基準を満たさなければ持ち出し不可とするものの、例えば消費実態調査の客体の性別や年齢のクロス集計などのように、公開しても実質的に問題ないものもあります」。

現状では、どの情報を秘匿すべきか、明確な線引きはなされていない。統計調査の所管官庁の判断は、協力者を確保するためにどうしても安全側へ傾く。しかし、そのために研究者の手間や審査時間が増大したのでは、利用促進に歯止めがかかる。阿部上席統計専門職は「統計家の研究成果を実務に反映し、審査時間の短縮を進めるなど、利用者の利便性を確保できるシステムをつくっていきたい」と話す。

このプロジェクトに携わった意義について、南は「個人のプライバシー保護は、ビッグデータ時代の最重要課題です。オンサイト利用における安全性審査プロセスの確立をビッグデータ利活用の成功例にしたい」と抱負を語る。データサイエンスの最前線を支える取り組みを統数研の知見が牽引している。

(広報室)


ページトップへ