第72巻第2号153−173(2024)  特集「公的統計—社会の重要な情報基盤—」  [研究資料]

公的統計における総合的品質管理の取組

一般財団法人日本統計協会/滋賀大学 川崎 茂
総務省 上田 聖

要旨

本稿では,国際機関及び日本における公的統計の総合的品質管理に関する取組について概説する.日本及び世界においてこの分野の取組が体系的に行われ始めたのは1990年代以降のことであり,その内容は今日まで段階的に発達してきた.国際的な取組の中では,国連統計委員会の制定した「公的統計の基本原則」及び国際通貨基金(IMF)の「特別データ公開基準」などが世界の国々における公的統計の品質向上に大きな影響を与えた.また,日本では,2007年に全面改正された統計法が公的統計の品質管理の発展に大きな役割を果たしている.最近,政府の2つの基幹統計調査において不適切な処理が行われていた問題が発生し,これを契機として総合的な品質管理の取組が拡充されている.結びに,公的統計の総合的品質管理を推進するために重要な要素について考察する.

キーワード:公的統計,公的統計の基本原則,統計法,総合的品質管理,TQM,国連統計委員会.


第72巻第2号175−193(2024)  特集「公的統計—社会の重要な情報基盤—」  [総合報告]

我が国における統計ビジネスレジスターの整備
—社会の重要な情報基盤としての「事業所母集団データベース」—

長野大学 髙橋 雅夫

要旨

本稿は,公的統計を社会の情報基盤と位置付けた現行の統計法において,その整備を進めることが定められた事業所母集団データベースの開発・整備の経緯と当該データベースの概要について紹介するとともに,今後の方向性について論じるものである.我が国の事業所母集団データベースは,国際的には統計ビジネスレジスターと呼ばれるものに相当する.統計ビジネスレジスターとは,統計目的で利用される事業所・企業等の経済単位のデータベースで,通常各国の国家統計局によって維持・管理されるものである.事業所母集団データベースは,経済センサスや各種統計調査及び行政記録等をその情報源とし,事業所や企業に関する各種統計調査のための母集団情報を提供するとともに事業所に関する統計を作成することを目的として整備されている.本稿では,事業所母集団データベース構築の経緯を紹介した後,データベースの概要について述べる.さらに,今後期待される発展の方向性として,データベースのカバレッジの更なる改善や国際連携などについても論じる.

キーワード:経済センサス,行政記録情報,サンプリング・フレーム,レジスター統計,ビジネスデモグラフィー.


第72巻第2号195−215(2024)  特集「公的統計—社会の重要な情報基盤—」  [原著論文]

労働時間を考慮した日本の消費構造に関する計量分析
—全国家計構造調査を用いて—

中央大学 伊藤 伸介
上智大学 出島 敬久
(公財)統計情報研究開発センター 村田 磨理子

要旨

日本を含む先進国全般に,共働き世帯の割合が増加している.それに伴って,夫婦の所得の構成と時間の配分が変化しつつあることから,様々な経済政策の効果を検討するためには,世帯類型ごとに夫婦の所得の構成と労働時間が消費支出に与える影響を調べることが求められる.その関係について,本稿では,調査項目として新たに週間就業時間が追加された全国家計構造調査の個票データを用いて,説明変数に労働時間を導入することで明らかにした.
具体的には,先行研究で推定されてきた家計消費の詳細費目に関する消費関数を設定した上で,説明変数に労働時間を新たに取り入れた.さらに,消費に与える恒常所得の影響をより正確に考慮するために,賃金構造基本統計調査で推定される賃金関数をもとにした賃金の期待値と実現値の差も説明変数に導入した.
その結果,第1に先行研究と同様に,夫婦の働き方の違いが家事消耗品や宿泊費等の支出に影響を与えることが観察された.第2に,労働時間が消費の費目に一部ではあるが影響をもたらしていることが確認された.以上の点については,共働き世帯で配偶者の労働時間が長くなるほどに,時間節約型の消費傾向が強まることによって説明することができる.

キーワード:家計消費,消費関数,共働き世帯,労働時間.


第72巻第2号217−231(2024)  特集「公的統計—社会の重要な情報基盤—」  [原著論文]

事業所・企業系の公的統計を対象にした合成データの生成技法に関する検討
—経済センサスを例として—

中央大学 伊藤 伸介
総務省 横溝 秀始

要旨

わが国の事業所・企業系の統計調査においては,事業所や企業を対象にした匿名データが現在作成されていないだけでなく,事業所・企業系の統計調査の場合,一般公開型ミクロデータの作成が困難である.そのため,合成データが作成可能であれば,テストデータ等へのニーズに応えることが可能になる.そこで,本稿では,経済センサス活動調査の個票データを用いて,各種の合成データの生成技法について定量的な評価を行った.
本研究では,攪乱的手法であるミクロアグリゲーションのMDAV(=Maximum Distance to Average Vector)法,CART(=Classification And Regression Tree)等,さらには深層学習モデルの1つであるCTGAN(=Conditional Tabular GAN)も用いて生成された合成データの有用性および秘匿性について定量的な評価を行った.本研究においてCARTを用いて合成データを生成した場合,要約統計量や相関係数といった分布特性が再現可能であることが確認された.また,CARTはMDAV法と比較して,有用性を保ったまま秘匿性の強度が高まる可能性がある.さらに,CTGANについては,CARTと比較した場合,秘匿性の程度がより高くなっていることがわかったが,有用性の低下も相対的に大きいことが確認された.

キーワード:合成データ,ミクロアグリゲーション,CART,CTGAN,経済センサス.


第72巻第2号233−244(2024)  特集「公的統計—社会の重要な情報基盤—」  [研究ノート]

多項ロジットモデルに基づく統計的マッチングの欠測値補完への応用

立正大学 高部 勲

要旨

統計的マッチングは,異なるデータを組み合わせて有用なデータを構築するための手法である.統計的マッチングにより,追加の調査やデータの収集を行うことなく,有益なデータを作成することが可能となり,近年,様々な分野で利用が進んでいる.本研究では,高部・山下 (2021),Takabe and Yamashita (2020)及び高部・山下 (2018)で提案された,多項ロジットモデルに基づく統計的マッチングの手法について紹介するとともに,その副産物として得られるマッチング確率を欠値補完に活用する方法について検討し,実データを用いて,その試算・分析を行った.

キーワード:統計的マッチング,多項ロジットモデル,ウエイト付き距離関数,欠測値補完.


第72巻第2号245−260(2024)  特集「公的統計—社会の重要な情報基盤—」  [統計ソフトウェア]

公的統計における外れ値への対処とソフトウェア
—RのMSD法パッケージの実装について—

総務省 和田 かず美

要旨

公的統計の分野において,連続値の外れ値検出法で最も多く使用されているのはレンジチェックと呼ばれる単変量の方法であるが,調査統計の成果物が従来の統計表に加えて個別データの提供も進むにつれて,多変量な外れ値への対処の重要性も徐々に認識されつつある.本稿では,単変量の外れ値と多変量の外れ値の違いについて解説し,多変量の外れ値検出法のうち単峰で対称な楕円分布を前提とする手法の1つであるMSD(Modified Stahel-Donoho)推定量による方法を実装したRのパッケージRMSD及びRMSDpとその利用方法について紹介する.

キーワード:データクリーニング,楕円分布.


第72巻第2号261−271(2024)  特集「公的統計—社会の重要な情報基盤—」  [統計ソフトウェア]

公的統計を利用した教育の実践例

滋賀大学 佐藤 正昭

要旨

公的統計を利用した統計教育の一端を紹介するとともに,その際必要となるR surveyパッケージの分析利用の方法を解説する.

キーワード:ミクロデータ,公的統計調査匿名データ,統計教育,surveyパッケージ.


第72巻第2号273−303(2024)  [研究詳解]

高次元統計解析で探る銀河の分子ガスの物理状態と天文学への展望

名古屋大学/統計数理研究所 竹内 努
筑波大学 矢田 和善
東京理科大学 江頭 健斗
筑波大学 青嶋 誠
筑波大学 吉川 耕司
東京理科大学 石井 晶
名古屋大学 加納 龍生
名古屋大学 施 文
名古屋大学/学習院大学 曹 愛奈
名古屋大学 馬 海霞
名古屋大学 松井 瀬奈
国立天文台/総合研究大学院大学 中西 康一郎
国立天文台/日本学術振興会 クレ スチェータ
東京大学 河野 孝太郎

要旨

現代科学のデータ解析では,次元がd,標本数がnであるデータにおいて,ndとなる場合が往々にして見られる.天文学では従来,このような状況は不適切と見なされ,データの持つ次元のほとんどの情報を破棄してd < nにする以外に選択肢はないと考えられていた.ndとなるデータは,高次元小標本(high-dimensional low sample size: HDLSS)と呼ばれる.HDLSSを含む高次元データの解析には,高次元データ特有の新しい理論と方法論が必要となる.青嶋らの研究グループは,それらを高次元統計解析と名付け,さまざまな統計理論とその方法論を構築した.本論文ではまず高次元統計解析を紹介し,その代表的な手法であるノイズ掃出し主成分分析(principal component analysis by noise-reduction method: NRPCA)と自動スパース主成分分析(automatic sparse PCA: A-SPCA)を導入する.これらの方法の実際のデータへの応用例として,アタカマ大型ミリ波/サブミリ波干渉計(Atacama Large Millimeter/Submillimeter Array: ALMA)が撮影した近傍宇宙の典型的な爆発的星形成(スターバースト)銀河NGC 253の分光マップに適用する.ALMAの分光マップは典型的なHDLSSデータである.NGC 253の中心部は全体として回転しており,放射される電磁波は回転速度に対応したドップラー効果によって波長が偏移している.元のデータはドップラー効果がそのまま表れており,予備解析としてまずこの元データを解析した.その結果,高次元PCAはドップラー効果を正確に抽出し,物理的なモデルを介在させることなく回転の空間構造を正確に記述できた.次に,同じ方法を回転のドップラーシフトを補正したデータに適用し,より詳細なスペクトルの特徴を解析した.これらの解析により,NRPCAとA-SPCAによってALMAスペクトルマップの非常に複雑な特性を定量化できることが示された.特に,これらの方法はモデルを仮定することなくNGC 253の中心からの大規模な質量流の情報を抽出でき,高次元統計学の強力さを示した.この方法は,分光サーベイデータだけでなく,HDLSSであるあらゆるタイプのデータに適用可能である.

キーワード:高次元統計解析,高次元主成分分析,星間物質,分子輝線,爆発的星形成,銀河進化.