空間統計学の研究動向と今後の展望
要旨
(時)空間データを対象とした統計解析手法の研究が空間統計学で進められてきた.とりわけ空間データの大規模化や多様化の進む近年では,計算効率と柔軟性を両立するような解析手法が発展を遂げてきている.本研究の目的は,以上のような空間統計学の近年の研究動向を整理することである.そのために,まずは基礎的な空間統計モデルとその課題を紹介する.次に,同モデルを大規模データに応用するための近似手法を低ランク近似,共分散行列の近似,精度行列の近似に分けて,それぞれについて既往研究を整理する.その後,空間統計モデルの柔軟性を高めるための拡張手法を,共分散カーネルに基づく方法と,そうでない方法に分け,ニューラルネットワークの応用などの直近の動向も踏まえて整理する.その後,以上の手法の時空間データへの応用研究について紹介する.最後に,当該分野の手法を実装するためのソフトウェアについて解説したうえで,今後の空間統計学の課題について議論する.
キーワード:空間統計学,時空間モデリング,ガウス過程,空間相関,ニューラルネットワーク.
空間計量経済学における近年の方法論的な発展
要旨
空間計量経済学という分野が産声を上げてから,もうすぐ50年が経過しようとしている.標準的な方法論は2000年代までにおおむね整備され,現在までに多くの実証研究が行われてきた.本稿では,空間計量経済学分野の近年の方法論的な発展に関する個人的な見解を論じる.具体的には,1)識別と因果推論,2)空間重み行列の特定化,3)空間的自己相関構造の柔軟なモデル化,4)時空間データのモデリング,5)ダーティデータのモデリングの観点から,近年の重要な方法論的発展をレビューすることを試みる.
キーワード:空間計量経済学,空間重み行列,統計的因果推論,機械学習,ダーティデータ,時空間パネルデータ.
ガウス過程に基づく時空間データ解析
要旨
ガウス過程はデータから関数を推定するための確率モデルの一つであり,古くから時空間データのモデリングに広く使われてきた.本稿では,時空間データ解析に関連する,二つの重要な問題を取り上げ,ガウス過程を用いたモデリングについて述べる.一つ目の問題は,集約データのモデリングである.都市などで取得される時空間データ(貧困度など)は,座標や時刻など「点」に紐づくデータのことを指すが,プライバシー保護や行政上の理由で,行政区画など「領域」に紐づくデータとして扱われることが少なくない.本稿では,ガウス過程の領域に対する積分を考えることによって,集約データを自然に扱う方法について紹介する.二つ目の問題は,常微分方程式で表される力学系のモデリングである.力学系のダイナミクスは状態の時間微分によって定義され,相空間上における「ベクトル場」として表現される.素朴には多出力ガウス過程を用いることによってベクトル場をモデリングできるが,物理法則を満たすような学習結果が必ずしも得られるとは限らない.本稿では,解析力学の一形式である「ハミルトン力学」を融合したガウス過程により,エネルギーの保存・散逸則を満たすベクトル場をモデリングする方法について紹介する.
キーワード:ガウス過程,時空間データ,集約データ,力学系,ハミルトン力学.
ベイズ的モデル統合による空間予測
要旨
有限地点で観測された空間データからモデルを推定し,未観測地点を予測することは空間データ分析において重要なタスクの1つである.近年では,古典的な地球統計学や空間計量経済学的モデルから機械学習的アプローチまで様々なモデルが利用可能である.そのため,解析対象のデータに対して適切に分析手法を取捨選択することは分析上の重要な論点である.本稿では,予測モデルが複数個得られる状況においてベイズ的にモデルを統合した空間予測の方法論についてのレビューを行う.特に,近年提案されたベイズ的空間予測統合に関して,古典的な統合方法との違いや具体的な推定アルゴリズムに関する解説を行う.
キーワード:ベイズモデル平均,スタッキング,ガウス過程,ベイズ的予測統合.
深層学習モデルに拡張した非線形Cox回帰モデルと東京賃貸物件市場への応用
要旨
本論文では,2019年3月から2021年3月に収集した東京賃貸物件市場データに対して,賃貸物件の広告掲載期間を生存時間とみなしてCox回帰モデルによる生存時間分析を行った.Cox回帰モデルを深層学習モデルによって非線形に拡張し,賃貸物件のもつ流動性と価格弾力性の時空間特性を非線形に表現し,COVID-19パンデミックが東京賃貸市場に及ぼした影響を評価した.流動性と価格弾力性のみをニューラルネットで表現し,解釈の可能性をなるべく残したところに本モデルの特長がある.本モデルによる分析の結果,パンデミック後には流動性の減少および価格弾力性の増加傾向が観察された.
キーワード:価格弾力性,Cox回帰モデル,時空間モデル,ニューラルネットワーク,ハザード関数,流動性.
連続値を対象とした位相的階層構造に基づく空間集積性の検出について
要旨
「興味のある対象が,ある特定の地域に集中しているか(空間的な集積性は存在するか)」を知ることは,空間データ解析における関心事の一つである.近年,空間データの各領域を特定のルールに基づいて走査(スキャン)し,尤度に基づいて空間集積性の有無を評価する空間スキャン検定が,様々な分野において広く利用されている.しかし,空間スキャン検定に関連する研究成果の多くは,主にその対象をカウントデータ(離散値)としており,また,その集積領域群の形状にも制約があった.そこで本研究では,「離散値をとらない空間データに対し,任意の形状をした集積領域群を評価できるか」という問いに対し,エシェロン解析法をベースとしたアプローチによって解決を試みる方法を提案する.エシェロン解析法とは,空間データの各領域が持つ1変量値と領域間の近傍情報に基づいて,データを同位相の領域群(エシェロン)に分類し,それらを階層構造のグラフで表現する手法である.提案法により,多くの場合で連続値として得られる「ある予測モデルに基づいた推定値」などのデータに対して,柔軟な空間集積性の議論が可能となる.本稿では,数値実験を通じて提案法の有効性を検証するとともに,従来法との違いについて考察する.また,クリギング予測値やベイズ推定値といった連続値を取るデータへの応用例も紹介する.
キーワード:空間集積性,空間スキャン検定,エシェロン解析法,エシェロンスキャン法.
位置登録情報を利用した長崎の観光地間の相互影響力評価
要旨
観光は,日本の主要産業の一つである.特に地方都市では,地域活性化の役割を担っている.新型コロナウィルスにより大きなダメージを受けたが,コロナ前の状況,もしくはそれ以上の観光客数の増加により観光が活性化している.今後は,観光客をさらに誘致する方策や,オーバーツーリズムとなっている地域では観光客の抑制や制御する方策が必要となっている.しかし,個人旅行が増加しているため,全体的な動きや観光地間の移動に関する分析は難しい.そこで本研究では,通信キャリアの位置登録情報を利用して,観光地間の関係性を評価し解釈する方法を提案し,定量的に評価することで観光客誘致のための基礎的なデータを創出することを目的とする.本提案手法は,各観光地のユニークユーザ数と観光地間の移動数,ユーザの居住地情報を利用して,観光地間の相互影響力を評価するものであり,各地における来訪者数の増加の影響が,位置登録情報から推定された移動者数に比例的に拡散していくことを仮定する多変量時系列モデルがベースとなっている.この手法を長崎県の観光地に適用し,観光地間の関係性を評価した結果,居住地・年代ごとに行動が異なることが示され,居住地・年代ごとに広告宣伝方法を変えることで効率的に観光客の誘致ができる可能性が示された.
キーワード:観光,位置登録情報,個人属性情報,相互相関,ブースティング.
無回答誤差と調査票の返送時期の関係
—「高槻市と関西大学による高槻市民郵送調査」の調査不能と項目無回答—
要旨
無回答には調査不能と項目無回答がある.無回答誤差の解消は重要であるが,無理に調査不能を減らそうとしても項目無回答を高め,全体としての誤差の減少にはつながらないという議論がある.本研究では,「高槻市と関西大学による高槻市民郵送調査」の12年分の結果を用いて,返送時期が調査不能と項目無回答とどのように関わっているかについて明らかにすることにした.
その結果,集計レベルの分析では,平均年齢に関する無回答誤差と回収率との間に負の相関関係がみられ,調査不能者(回答を得られなかった者)の割合が増加すると年齢に関する無回答誤差が増加するという影響が確認された.一方,個票レベルの分析では,項目無回答の場合は,回答済みの場合よりも平均返送日数が長くなる傾向がうかがえた.そこで,項目無回答と返送日数の関係性を調べると,項目無回答の個数と返送日数の間には双方が影響を及ぼしあう関係が成り立つ可能性がでてきた.その一方で,回収率が高い場合に項目無回答の個数が増加する傾向もうかがえた.郵送調査では,導入部分が良質であれば早く返送されて回収率も上昇するが,消極的回答者を含むために,項目無回答が増える可能性が考えられた.項目無回答の増加の極限には調査不能であるが,返送時期が長引くことの延長上に調査不能があるという関係と連動して成立する可能性が確認できた.
キーワード:郵送調査,無回答誤差,調査不能,項目無回答,返送日数,回収率.