平成302018)年度 一般研究2実施報告書

 

課題番号

30−共研−2031

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

7

研究課題名

公的大規模データの利用におけるプライバシー保護の理論と応用

フリガナ

代表者氏名

サイ シドウ

佐井 至道

ローマ字

Sai Shido

所属機関

岡山商科大学

所属部局

経済学部 経済学科

職  名

教授

配分経費

研究費

40千円

旅 費

164千円

研究参加者数

12 人

 

 

研究目的と成果(経過)の概要

 本研究の主な目的は以下の4点であった。

(1) 個票データについて,秘匿方法,リスク評価方法,データの有用性の数量化について,それぞれ理論の拡充を図るとともに,それらの融合を行う。
(2) 表形式データについて,情報量を残しながら秘匿を行う手法の確立を目指す。
(3) 擬似個票データについて,元データに直接ノイズを加えるような方法など新たな手法の検討を行い,実データへの適用を図る。
(4) 地方自治体,企業,各種団体などで所有している個票データについて,適切な公開方法や対処方法を見いだすことをサポートする研究を行う。また,他分野における個票データの生成方法,秘匿方法,公開方法について,問題整理と個別の解決策を提示する。

 このうち(1)については,渋谷,大和,星野,間野,佃らによって,ピットマンモデル,ユーエンスモデル,ディリクレ過程など,確率分割の理論とその周辺の領域について,今年度も着実に研究が進められた。この点はこれまでと同様,本研究による最も貢献の大きい部分である。また,秘匿方法とリスクとの関係についても星野らによって理論的な研究が進められている。さらに,伊藤らによって,海外における秘匿方法とリスク評価方法の現状を踏まえて,国勢調査などの個票データなどに対する秘匿方法についての検討が行われた。

 (2)については,ここ数年,瀧,小林らによって,表形式データに対する秘匿措置についての諸外国,あるいは国内における現状が報告されたものの,新たな理論的な研究成果として目立ったものはない。

 (3)については,独立行政法人統計センターにおいて,伊藤の提案した方法を含む形で擬似個票データ(現在は一般用ミクロデータと呼ばれる)の提供が行われており,現在も改良が進められている。これとは別に,個票データのいくつかの項目に直接ノイズを加えたりスワッピングを行ったりする方法についても研究が進められた。伊藤は,データスワッピングを用いた秘匿について,官庁統計の実個票データを用いた詳細な検討を行った。星野は,擬似多項分布を用いた模造データの作成法を提案し,他の手法と比較して優れていることを示した。佐井は,キー変数とノイズ変数に分布を導入して,母集団も考慮に入れたリスク評価方法をある程度確立した。またリスク評価方法として,局所的なキー変数の分布を利用したノンパラメトリック推定法を提案し,前述の方法よりも優れたケースのあることを示した。これらの研究は本年度の研究で最も進捗が大きいものとなった。

 (4)については,一昨年度,昨年度に引き続き,他分野の研究グループとの交流が活発に行われた。特に情報処理学会内の組織であるPWS(プライバシーワークショップ)とは研究会,研究集会,ワークショップにおいて頻繁に意見交換などの交流が行われ,共同研究も行われた。2018年9月に行われた統計関連学会連合大会では伊藤,佐井がオーガナイザーとなって,企画セッション「大規模データの利活用におけるプライバシー保護の現状と課題」を設け,本研究グループから伊藤(情報処理学会の研究者との共同研究),佐井が講演を,星野が討論を行うとともに,情報処理学会から2名の講演者と1名の討論者を招待した。2018年10月に行われたコンピュータセキュリティシンポジウム(CSS2018)内のPWS2018では,企画セッション「統計データのプライバシー保護に関する現状と課題」が設けられ,伊藤が講演を行うとともに,佐井,星野が招待講演を行った。来年度も,2019年9月開催の統計関連学会連合大会で企画セッションを設ける予定で,既に企画と人選に入っている。

 本研究の成果については,2018年9月に行われた統計関連学会連合大会などの学会や国内外の各種シンポジウム,研究集会などにおいて報告を行うとともに,2018年12月に主催した研究集会などでも報告し,討論や意見交換を行った。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

 今年度,この研究に関連して新たに発表された論文など(発表決定を含む)は18編である。以下にその一部を記載する。

佐井至道, 個票データのキー変数の型とリスクとの関係, 岡山商大論叢, 査読有, 54巻, 1号, 2018, 1-28.

Hu, J. and Hoshino, N., The quasi-multinomial synthesizer for categorical data, Privacy in Statistical Databases, PSD 2018, Lecture Notes in Computer Science, Domingo-Ferrer, J., Montes, F. (eds), 査読有, Vol. 11126, 2018, 75-91.
DOI: 10.1007/978-3-319-99771-1_6

伊藤伸介, 谷道正太郎, 小島健一, オーストラリアにおける公的統計の二次的利用について-オンデマンド集計システムTableBuilderを中心に-, 経済学論纂(中央大学), 査読無, 58巻, 2号, 2018, 187-208.

伊藤伸介, 国勢調査における匿名化ミクロデータの作成可能性, 経済志林, 査読無, 85巻, 2号, 2018, 241-277.

伊藤伸介, 公的統計ミクロデータの利活用における匿名化措置のあり方について, 日本統計学会誌, 査読有, 47巻, 2号, 2018, 77-101.
http://www.terrapub.co.jp/journals/jjssj

伊藤伸介, 公的統計ミクロデータの利活用の動向とわが国における課題, 統計, 査読無, 2018年6月号, 2018, 13-18.

Ito, S., Yoshitake, T., Kikuchi, R. and Akutsu, F., Comparative study of the effectiveness of perturbative methods for creating official microdata in Japan, Privacy in Statistical Databases, PSD 2018, Lecture Notes in Computer Science, Domingo-Ferrer, J., Montes, F. (eds), 査読有, Vol. 11126, 2018, 200-214.
DOI: 10.1007/978-3-319-99771-1_14

伊藤伸介, 星野なおみ, 阿久津文香, 菊池亮, 匿名化された公的統計ミクロデータの作成における攪乱的手法の有効性の評価, 経済学論纂(中央大学), 査読無, 59巻, 1・2合併号, 2018, 37-60.

Tsukuda, K., On Poisson approximations for the Ewens sampling formula when the mutation parameter grows with the sample size, The Annals of Applied Probability, to appear, 査読有, 採択済み.

Hajime Yamato, Shifted Binomial approximations for the Ewens sampling formula (II), Bulletin of Informatics and Cybernetics, 査読有, 50巻, 2018, 43-50.
http://catalog.lib.kyushu-u.ac.jp/ja

 また今年度,この研究に関連する学会等の発表は39件である。以下にその一部を記載する。

星野伸明, The Quasi-Multinomial Synthesizer for Categorical Data, 科学研究費補助金・統計数理研究所共同利用合同研究会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

佃康司, Ewens--Pitman抽出公式に関連したいくつかの話題について, 科学研究費補助金・統計数理研究所共同利用合同研究会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

渋谷政昭, Inference on Gibbs base random partition, 科学研究費補助金・統計数理研究所共同利用合同研究会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

丸山祐造, 数理・データサイエンス教育強化拠点コンソーシアムとカリキュラム分科会の紹介, 科学研究費補助金・統計数理研究所共同利用合同研究会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

伊藤伸介, 吉武透, 菊池亮, 阿久津文香, ミクロデータにおける攪乱的手法の有効性に関する比較研究, 科学研究費補助金・統計数理研究所共同利用合同研究会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

伊藤伸介, 寺田雅之, 高次元の公的統計データにおけるプライバシー保護をめぐって, 2018年統計関連学会連合大会, 2018.

佐井至道, リスクの高いデータの秘匿について, 2018年統計関連学会連合大会, 2018.

吉武透, 伊藤伸介, 菊池亮, 阿久津文香, ミクロデータにおける攪乱的手法の有効性に関する比較研究, 2018年統計関連学会連合大会, 2018.

伊藤伸介, 海外の公的統計や行政記録情報に関するデータリンケージの現状について, 2018年統計関連学会連合大会, 2018.

佃康司, ノイズ共変量に対するロバスト設計法と関連する話題, 2018年統計関連学会連合大会, 2018.

佃康司, 倉田博史, 二つの一般リッジ推定量を等しくする共分散構造とその応用, 2018年統計関連学会連合大会, 2018.

Hoshino, N., Rejection sampling from the quasi-multinomial distribution, 2018年統計関連学会連合大会, 2018.

Mano, S. and Takayama, N., A direct sampler from A-hypergeometric distributions, 2018年統計関連学会連合大会, 2018.

大和元, Ewens標本抽出公式の分割の個数の分布への二項分布に基づく近似, 2018年統計関連学会連合大会, 2018.

丸山祐造, 東京大学の統計データサイエンス教育及び6大学コンソーシアムの取り組みについて, 2018年統計関連学会連合大会, 2018.

竹村彰通, データサイエンス学部卒業生の人材像, 2018年統計関連学会連合大会, 2018.

伊藤伸介, 出島敬久, 村田磨理子, わが国における保有不動産・金融資産と就業状況に関する実証分析-居住地情報に着目して-, 2018年統計関連学会連合大会, 2018.

佐井至道, 非攪乱的および攪乱的な秘匿方法を施した個票データのリスクの比較, コンピュータセキュリティシンポジウム2018 (CSS2018)(招待講演), 2018.

星野伸明, 統計的推測精度の管理, コンピュータセキュリティシンポジウム2018 (CSS2018)(招待講演), 2018.

伊藤伸介, 統計データのプライバシー保護に関する現状と課題, コンピュータセキュリティシンポジウム2018 (CSS2018), 2018.

佃康司, Ewens抽出公式に対する正規近似とポアソン近似, シンポジウム「融合する統計科学」, 2018.

間野修平, Posterior sampling from some non-exchangeable priors, シンポジウム「融合する統計科学」, 2018.

佐井至道, 秘匿措置が施されたデータのリスク評価の試み, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

伊藤伸介, 吉武透, 菊池亮, 阿久津文香, 国勢調査ミクロデータにおける攪乱的手法の適用可能性の検証, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

稲葉由之, データ結合による大規模データの構築と公開に関する考察, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

大和元, Ewens標本抽出公式のSingletonとDoubletonの個数の分布と近似, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

星野伸明, ランダムネスによるプライバシー保護, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

佃康司, Ewens分割の長さの正規近似について, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

間野修平, Ewens分割のq類似とその性質, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

渋谷政昭, Gibbs Base Random Partition の推測, 研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」, 2018.

Sibuya, M., Gibbs base random partitions, Pioneering Workshop on Extreme Value and Distribution Theories in Honor of Professor Masaaki Sibuya(特別講演)(国際学会), 2018.

Tsukuda, K., An error bound for the normal approximation to the length of a Ewens partition, Pioneering Workshop on Extreme Value and Distribution Theories in Honor of Professor Masaaki Sibuya(国際学会), 2018.

Yamato, H., Asymptotic and approximate discrete distributions for length of Ewens sampling formula, Pioneering Workshop on Extreme Value and Distribution Theories in Honor of Professor Masaaki Sibuya(国際学会), 2018.

 なお本研究で開催した研究集会,研究会に関する情報は,下記のホームページで公開している。

http://sai.in.coocan.jp/research/index.html


研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

研究集会「公的大規模データの利用におけるプライバシー保護の理論と応用」
日時: 2018年12月13日,14日
場所: 統計数理研究所・セミナー室2
参加者: 25名
報告者: 14名

研究会「公的大規模データの利用におけるプライバシー保護の理論と応用」
日時: 2018年7月26日
場所: 岡山大学東京オフィス
参加者: 6名
報告者: 5名

 

研究参加者一覧

氏名

所属機関

伊藤 伸介

中央大学

稲葉 由之

明星大学

渋谷 政昭

慶応義塾大学

瀧 敦弘

広島大学

竹村 彰通

滋賀大学

田村 義保

統計数理研究所

佃 康司

東京大学

星野 伸明

金沢大学

間野 修平

統計数理研究所

丸山 祐造

東京大学

大和 元

鹿児島大学