第66巻第2号193−212(2018)  特集「サービス科学の今」  [総合報告]

アジャイルな社会に向けて

株式会社Preferred Networks 丸山 宏

要旨

筆者は2011年4月より2016年3月まで,統計数理研究所サービス科学研究センターのセンター長として勤務した.その中でいくつか一見関連のない研究活動を行ったが,それらを俯瞰してみると「変化にどのように向き合うか」という一貫したモチーフが見えてくる.我々はますます変化が激しくなる社会に直面していて,それに対して我々自身もアジャイルに変化していかねばならない.本稿では,サービス科学,情報技術の変遷,レジリエントなシステム,個人のキャリアとスキル,という4つの観点から,我々が日々直面する変化にどのように対応していくか,を議論する.

キーワード:Service Science,Statistical Machine Learning,Resilience,Data Scientists.


第66巻第2号213−224(2018)  特集「サービス科学の今」  [総合報告]

ビッグデータを活用する確率モデリング技術
—社会実装の取り組みと課題—

産業技術総合研究所 人工知能研究センター 本村 陽一

要旨

ビッグデータを活用した機械学習により現在,人工知能技術の実用化が劇的に進んでおり,それによる産業構造変革やSociety5.0と呼ばれるスマート社会の実現も期待されている.本稿では実社会のビッグデータとして利用者のIDが付いたサービス利用履歴データ(ID=POSデータやID付きアンケート,ID付き操作履歴など)から確率潜在意味解析(PLSA),ベイジアンネットを用いて確率モデルを構築し,利用者の行動や嗜好性を予測する確率モデリング技術について概説する.またそれによりサービスの価値や生産性向上の実現に寄与する人工知能技術としての応用例や社会実装を進めるための取り組みについても紹介する.

キーワード:サービス工学,人工知能技術,確率モデリング,ベイジアンネット,確率的潜在意味解析,ビッグデータ.


第66巻第2号225−233(2018)  特集「サービス科学の今」  [総合報告]

位置情報軌跡の統計的プライバシー保護

統計数理研究所 南 和宏

要旨

スマートフォンの普及に伴い,我々の位置情報の取得が容易になり,多くのユーザーの移動履歴は,交通情報の提供,都市設計といった社会サービス,また商圏分析等の企業活動にも活用されている.一方,位置情報から個人の興味に関するプライバシーに関する情報が漏洩する危険性が懸念されている.位置情報の時系列データは,既存の匿名化手法の適用が困難な多次元データであり,個人の行動習慣,移動経路の制約等を反映した時空間の相関性を利用した統計的推論攻撃に対する防護策が必要となる.本記事では,位置情報軌跡を安全に分割する動的仮名更新手法,および,時空間の相関性による情報漏洩リスクを考慮した状態空間モデルに基づく匿名化データの安全性評価手法を紹介する.

キーワード:位置情報,匿名化,仮名化,マルコフ過程,状態空間モデル.


第66巻第2号235−247(2018)  特集「サービス科学の今」  [研究詳解]

大規模集計POSデータの高次元スパースモデリング

東北大学大学院 経済学研究科 李 銀星
東北大学大学院 経済学研究科 照井 伸彦

要旨

多様な消費者ニーズをきめ細かく捉えて顧客を獲得して維持するための効果的マーケティングのために,主体(消費者)の異質性の統計モデリングが他の分野に先駆けて開発された.他方,実店舗において,個別対応は必ずしも容易ではないのも現実である.本稿では集計POSデータに対して機械学習などの新しい統計分析による高度情報処理を適用することにより,多くの実店舗で活用できる大規模データを活用したマーケティングモデルの可能性を展望する.高次元データについては,2種類の次元圧縮法,すなわち,トピックモデルによる次元圧縮と購買文脈による部分市場分解,階層因子回帰モデルによる次元圧縮とパラメータの高次元空間への還元が議論される.
全商品データを分析に取り入れることで,目的変数を説明する意外な変数の発見のみならずその量的関係が弾力性の形で測定可能となり,実店舗のきめ細かいマーケティング戦略に有用な情報が提供可能となることを展望する.

キーワード:集計POSデータ,購買状況の異質性,トピックモデル,高次元スパースデータ,階層因子回帰.


第66巻第2号249−265(2018)  特集「サービス科学の今」  [研究ノート]

統計モデルによる消費者理解の可能性

筑波大学 ビジネスサイエンス系 佐藤 忠彦

要旨

統計モデルの高度活用は,サービス科学を発展させるための必須のツールであり,今後さらに重要度の増すアプローチである.本稿は,サービスを高度化する際に必須の「消費者理解を深めるには」という観点で統計モデル(特にベイズモデル)をどのように活用すべきか?に対する提言を目的とし,周辺研究を整理し,既存研究の紹介を基本として整理した.事例で紹介した2つの研究は,マーケティングを題材としたものであるが,サービス研究に対しても十分な示唆を供するものである.

キーワード:ベイジアンモデリング,消費者異質性,時間的異質性,潜在変数.


第66巻第2号267−278(2018)  特集「サービス科学の今」  [研究ノート]

地域健康政策へのベイジアンネットワークの応用

筑波大学大学院 システム情報工学研究科 鳥海 航
筑波大学大学院 システム情報工学研究科 生方 裕一
筑波大学 体育系/筑波大学 人工知能科学センター 久野 譜也
筑波大学 システム情報系/筑波大学 人工知能科学センター 岡田 幸彦

要旨

本稿は,データ中心科学としてのサービス科学の新たな展開である地域健康政策のためのサービス科学のあり方について,国立研究開発法人日本医療研究開発機構の「AIを活用した保健指導システム研究推進事業」として採択された筑波大学の取り組み事例をもとに議論している.自治体が行う地域健康政策では説明責任が強く求められるため,担当職員にとって説明容易性の高い統計手法を用いる必要がある.また,どの自治体,どの疾病に対しても応用可能な分析方法論を確立する必要がある.本稿では,これらの必要性を満たす統計手法として,制約ベースアプローチで条件付き独立性をχ2検定によって行い,より効率的な構造学習が可能なLocal to Globalアプローチのアルゴリズムを採用したベイジアンネットワークが有用であることを主張する.そして,自治体Aの実際の健康関連ビッグデータを用いて,どの自治体,どの疾病に対しても応用可能な疾病発症ベイジアンネットワークの試行を行っている.そして,本稿で紹介した取り組み事例をふまえ,地域健康政策におけるサービス科学のあり方と今後の研究課題について議論している.

キーワード:地域健康政策,人工知能,説明責任,説明容易性,ベイジアンネットワーク.


第66巻第2号279−294(2018)  特集「サービス科学の今」  [原著論文]

集約的シンボリックデータのカイ2乗統計量を用いた非類似度とその不動産情報データへの適用

統計数理研究所 清水 信夫
統計数理研究所 中野 純司
徳島文理大学 理工学部 山本 由和

要旨

近年,サービス科学においては連続変数とカテゴリー変数が混在している大量のデータが得られることが多い.そしてそれらの個体データはいくつかの自然なグループに分かれる場合がある.そのとき,個々の個体データそのものではなく,その集合であるグループに対する推論および解析に興味があることがある.われわれは,そのようなグループを表すためにいくつかの記述統計量の集合をデータと考え,それを集約的シンボリックデータ(Aggregated Symbolic Data,ASD)と呼ぶ.ここでは,連続変数とカテゴリー変数がともに含まれる場合に,2次以下のモーメントに関する統計量をASDと考える.また,連続変数をカテゴリー化することによりすべての変数について同様の基準によるカイ2乗統計量を考えた上で,それらの和としてASD間の非類似度を構成する手法を提案する.そして,この方法を東京都区部の不動産情報データに適用し,各区ごとのデータの集合を考え,それらのASDを計算する.さらに各ASDの値から区の間の非類似度を求め,各区の階層的クラスタリングおよび多次元尺度構成法による分析を行う.

キーワード:Burt行列,カイ2乗統計量,階層的クラスタリング,多次元尺度構成法,ビッグデータ.


第66巻第2号295−317(2018)  [原著論文]

B-スプライン及びAdaptive Group LASSOに基づく正則化非線形ロジットモデルによるデフォルト確率の推定

総合研究大学院大学 複合科学研究科統計科学専攻/総務省統計局 高部 勲
統計数理研究所 山下 智志

要旨

企業の過去のデフォルトデータを基にデフォルト確率予測モデルを構築する際には線形な2項ロジットモデルが用いられることが多いが,これについては従前から,(1)企業の信用スコアと財務指標との間の非線形性に対する考慮が不十分であり,また(2)多くの説明変数の候補からの変数選択に莫大な計算時間がかかるというという2つの課題についての指摘がある.本稿では,このような非線形性と変数選択という2つの課題を同時に解決することを目的として,(1)B-スプラインに基づく非線形・ノンパラメトリック回帰モデル及び(2)Adaptive Group LASSOに基づく効率的な変数選択という2つの手法を組み合わせることにより,従前の手法よりも効果的かつ効率的なデフォルト確率予測モデルの構築を試みた.複数の銀行のデータを統合した独自のデータベースを用いてデフォルト確率予測モデルの構築を行った結果,本稿で提案したモデルは,t値・p値に基づく変数選択や単純なLASSOと比較して,いずれの期間においても最も説明変数の数が少なくなっており,より効率的な変数選択を行うことができた.またAR値などの指標の観点から,推定精度が向上していることが確認された.

キーワード:信用リスク,B-スプライン,Adaptive Group LASSO.


第66巻第2号319−337(2018)  [研究ノート]

トータルパワー寄与率を用いた海洋生態システムにおける因果性推測

Marine Mammals Research Group, Institute of Marine Research ソルヴァン加藤 比呂子
Research Group on Fisheries Dynamics, Institute of Marine Research/Department of Natural Resources, Cornell University Subbey Sam

要旨

多変量時系列データの変量間相互関係を推測する方法として,Ozaki(2012)は,Granger(1969)とGeweke(1982)のペアワイズ因果性推測(Partial pairwise causality)と赤池(1968)の提案した相対パワー寄与率(Total causality)を統合した因果性推測を提案した.我々は赤池情報量規準の枠組みで,因果関係の有意性に関する規準を加え,シミュレーションデータによりその手法の検証をおこなった.また,実データ分析として,バーレンツ海域の生態系における食物連鎖(food web)で重要な4種類の海洋生物(シシャモ,タラ,オキアミ,ニシン)のバイオマス時系列データを用い,シシャモの年齢毎に生物種間のフィードバック関係を考察した.2–3年齢のシシャモを含むフィードバックシステムは,1年齢もしくは4年齢のシシャモを含むフィードバックシステムよりもより多くの生物種間の相互関係を示した.それらはバーレンツ海のfood webに関するこれまでの先行研究を裏付け,シシャモがバーレンツ海域生態システムのfood webに関連する生物種間の重要な駆動源になることを明らかにした.本稿が提案する手法は,海洋学研究で対象となる複雑な生態系において,生物種間,環境因数間の因果関係を推測する一手段として有用であると考えられる.

キーワード:多変量自己回帰モデル,多変量時系列データ,フィードバックシステム,Grangerの因果性,海洋生態システム,バーレンツ海.


第66巻第2号339−351(2018)  [統計ソフトウェア]

P3:Pythonによる並列計算機用粒子フィルタライブラリ

統計数理研究所/総合研究大学院大学 複合科学研究科 中野 慎也
統計数理研究所/現 日本文理大学 工学部 有吉 雄哉
統計数理研究所/総合研究大学院大学 複合科学研究科 樋口 知之

要旨

粒子フィルタ(PF)は,多数の粒子を用いたモンテカルロ計算に基づく状態推定手法であり,非線型,非ガウスの問題に適用できることから広く様々な目的で用いられるようになってきている.一方で,PFには,推定に必要となる粒子の数が状態変数の自由度に対して指数関数的に増大するため,計算量も指数関数的に増大してしまうという欠点がある.並列計算機の利用は,PFの計算量に対処する手段の一つとして有効であると考えられる.しかし,並列計算機を使うには並列プログラミングの知識が必要であり,また,PFには並列化の困難な処理が含まれているため,並列プログラミングの知識があるユーザにとっても,PFで高い並列化効率を実現するのは容易ではない.そこで,並列化効率の高いPFアルゴリズムを手軽に利用できるようにするためにP3(Python Parallelized Particle Filter Library)というPythonライブラリを開発した.本稿では,P3で利用できるPFの並列アルゴリズムについて述べ,構成の概要や特徴を紹介する.

キーワード:粒子フィルタ,並列計算,Python.