数学・数理科学と共に拓く豊かな未来 数学・数理科学と諸科学・産業の恊働による研究を促進するための「議論の場」を提供
項目 内容
研究集会等の名称 統計科学の新展開と産業界・社会への応⽤
採択番号 2015W04
該当する重点テーマ ビッグデータ、複雑な現象やシステム等の構造の解明 、疎構造データからの大域構造の推論 、過去の経験的事実、人間の行動等の定式化 、計測・予測・可視化の数理 、リスク管理の数理 、最適化と制御の数理
キーワード 超高頻度データ 、統計的従属性モデリング  、ビッグデータ 、臨床試験のシミュレーション  、ミクロ統計
主催機関
  • 岡山大学大学院社会文化科学研究科
運営責任者
  • 長畑 秀和
  • 栗原 考次
開催日時 2015/09/07 10:00 ~ 2015/09/08 17:30
開催場所 岡山大学津島キャンパス一般教育棟
最終プログラム

「統計科学の新展開と産業界・社会への応⽤」プログラム案

第1日9月7日
・数学協働プログラムの活動紹介 統計数理研究所 藤澤洋徳
(1)セッション「統計的従属性モデリングの理論と応用」
オーガナイザー:増田弘毅(九州大学マス・フォア・インダストリ研究)
・「擬似尤度とSchwarz型モデル評価」 増田弘毅(九州大学),江口翔一(九州大学)
・「確率微分方程式のハイブリッド型推定法とモデル選択への応用」 :内田雅之(大阪大学)
・「非整数ブラウン運動とその日本の株式市場への応用」 森本孝之(関西学院大学)
・「経験的SDEモデルによる時系列データ解析とアンサンブル予測可能性評価」 中野直人(北海道大),稲津将(北海道大),楠岡誠一郎(東北大),齋木吉隆(一橋大)

(2)セッション 「超高頻度データ解析と計算統計」
オーガナイザー:内田雅之(大阪大学大学院基礎工学研究科,金融・保険教育研究センター)
・「点過程の推測理論と超高密度データのモデリング」吉田朋広(東京大)

・「Cholesky Realized Stochastic Volatility Model 」大森裕浩(東京大),城田慎一郎(Department of Stastical Science,Duke University,US),Hedibert.F.Lopes.(Insper Institute of Education and Research,Brazil.),Haixiang Piao(Nippon Life Insurance Company)  

・「大規模データ同化のための計算技術開発」 長尾大道(東京大),加納将行(東京大),伊東伸一(東京大),石川大智(東京大)                                          

・「高次元での高速なマルコフ連鎖モンテカルロ法」鎌谷研吾(大阪大)                                                                     第2日9月8日      

(3)セッション「スポーツにおけるビッグデータの活用」
オーガナイザー: 酒折文武(中央大学理工学部)
・「Jリーグへのトラッキングシステムの導入とデータ活用の課題」 加藤健太(データスタジアム株式会社)

・「サッカーのトラッキングデータに関する統計分析の可能性について」酒折文武(中央大)
・「野球におけるトラッキングデータ活用の展望」金沢慧(データスタジアム株式会社)
・「走力や肩力を考慮した犠牲フライの戦術分析」宮崎誠也(東京工業大),金沢慧(データスタジアム株式会社),上原早霧(データスタジアム株式会社)
(4)セッション「医学分野でのシミュレーションの応用」
オーガナイザー:弘 新太郎(ファイザー株式会社)
・「臨床試験の至てきようりょうを検討する際のモデリング・シミュレーションからの提案」 庄子聡(ファイザー株式会社),鈴木昭之(ファイザー株式会社)
・「効果予測モデルの共変量にReal World Dataを用いた臨床試験のシミュレーション」 松岡伸篤(ファイザー株式会社),今井啓之(ファイザー株式会社),鈴木昭之(ファイザー株式会社)
・「A simulation of Bayesian adaptive seamless Phase 2/3 design at the planning and execution phases」 西山智(日本イーライリー),Skrivanek Zachary(Eli Lilly and Company) 

・「統計的機械学習に基づく医薬品候補化合物の分子設計」吉田亮(統計数理研究所)                                                                              (5)セッション「アジアの公的ミクロ統計の活用」
オーガナイザー:馬場康維(統計数理研究所)
・「農林水産統計の公的ミクロデータとその活用」仙田徹司(京都大学),吉田嘉雄(京都大学),松下幸司(京都大学)
・「現代ベトナムにおける都市・農村格差とその要因」高橋塁(東海大学)
・「バングラデシュのHIESによる親同居・不在世帯の児童の状況」菅幹雄(法政大),川崎暁子(法政大)
・「家計収支の国際比較-タイとスリランカのミクロデータを用いてー」米澤香((公財)統計情報研究開発センター),
安井浩子((公財)統計情報研究開発センター,新井郁子((公財)統計情報研究開発センター)、
松田芳郎(一橋大学・東京国際大学),馬場康維(統計数理研究所)
・「国際ミクロ統計データベース作成を通して見た東南アジア諸国の家計収支調査の調査方法の現状と問題」
古田裕繁((公財)統計情報研究開発センター)
・「『国際ミクロ統計データベース』の利用方法について」
岡本 基(大学共同利用機関法人情報システム研究機構/統計数理研究所),山下智志(統計数理研究所)

参加者数 数学・数理科学:140、 諸科学:6、 産業界:45、 その他:9
当日の論点

(1)「統計的従属性モデリングの理論と応用」複雑な従属性を呈するデータ系列からの統計的情報搾取手法、ならびに統計的モデリング手法の開発が主眼である。当日は確率過程で記述される統計モデルの解析に関して、以下4件が提案・議論された。1)汎用的Schwarz型モデル評価法 2)拡散過程モデルの推定・モデル選択における理論および数値計算的側面 3)フラクショナルBlack-Scholesモデルの日本市場データへの応用4)低次元へ集約された気象時系列データの拡散過程モデリングおよび経験的推定法の提案(2)「超高頻度データ解析と計算統計」超高頻度データ解析は統計科学の新しい研究分野であり、数理統計学的な定式化をはじめとして、超高頻度データに基づく統計推測理論や統計計算技術の開発が急務である。超高頻度データの統計解析に有効な疑似尤度解析(最尤型推定量、ベイズ型推定量)、SVM、データ同化、MCMC法について研究発表および議論がなされた。(3)「スポーツにおけるビッグデータの活用」スポーツ分野におけるビッグデータの収集や活用の現状についての報告がなされ、討論した。具体的には、サッカーにおけるボールや選手の動きを追跡したトラッキングシステムの詳細と収集されたデータに対する現状の活用状況、様々な統計分析や統計モデルの適用例や今後の可能性の検討、野球における投球のトラッキングシステムの詳細と収集されたデータの活用状況、野球のプレイデータを活用した統計的分析とその現場への応用可能性についてが取り上げられた。データ収集・提供・活用側の企業と、研究者との十分な情報交換が十分に行え、現状を多くの研究者間で共有することができた。(4)「医学分野でのシミュレーションの応用」医学分野でのシミュレーションの応用のセッションでは、前半の3演題で、新薬の開発にモデリング&シミュレーションが実際に応用され,有用であった事例を紹介した。主な論点は統計モデルでの推定と実際の結果の一致性や,シミュレーション結果からどのように意思決定をしていくのかという点であった。また,Adaptive designでは,シームレスで2試験を1試験として継続する方法と最初の試験の結果を確認して,次の試験を実施する方法との比較などが論点となった。4演題目は医薬品化合物の分子設計の問題を数理統計,機械学習を用いてどのように解決していくか紹介して頂いた。これまで統計担当者があまり取り組んでいなかった分野の問題に対し,どう取り組んで解決していくのかを解説してくださり,オーディエンスに非常に刺激を与える講演であった。(5)「アジアの公的ミクロ統計の活用」1)戦前期の農家経済調査について、すべてのデータ化には至らず、まだ電子画像化のみの復元であるが、戦前期日本の経験がアジア諸国の家計調査のメタデータ整備にも貢献しうることが議論となった。2)1990年代から2000年代にかけて実施されたベトナムの家計レベルマイクロデータを用いて都市・農村格差を消費支出面から考察した。その結果、都市・農村格差よりも都市内、農村内格差が拡大していることがわかった。3)バングラデシュの世帯調査HIES2000のデータを用いて、親の同居/不在が子どもの就学状況に与える影響を分析した。まず世帯属性、教育および仕送りに関する調査項目を用いて、類型別に就学率を算出し、次に回帰分析を行った。その結果、親の不在は子どもの就学率を低下させる一方で、仕送りは就学率を上げるという相殺効果が働くことが明らかになった。4)タイとスリランカの家計収支のミクロデータを用い、両国における家計収支について比較検討を行った。地域間の家計収支、ジニ係数、および赤字世帯割合の比較をし、勤労収入や年金・社会保障・送金の議論を行い両国の比較をした。5)アジアの公的ミクロデータについて、サービス認知度の向上と利用可能なデータ増によるデータベースの質向上について議論した。6)アジアの公的ミクロデータの整備の状況について論じた。

研究の現状と課題(既にできていること、できていないことの切り分け)

(1)「統計的従属性モデリングの理論と応用」従属データモデルの推測理論が高度に整備されつつある。一方、モデルの次元が増大した場合の実用的手法・アルゴリズム構築については、要所で数値計算的問題が付随する。(2)「超高頻度データ解析と計算統計」超高頻度データに基づく確率過程の統計モデリングは世界的にみても先進的研究であり、数学的定式化はもとより、データ解析のためのモンテカルロ法や最適化法などの計算統計理論を整備する必要があり、今後の進展が期待される。特に高次元漸近理論に基づいたMCMC法の開発は、本分野の発展に必要不可欠である。(3)「スポーツにおけるビッグデータの活用」野球に関するプレイデータやトラッキングデータは、歴史も比較的長く、データが一部公表されていることもあり、すでに様々な分析がなされつつある。とはいえ、日本ではまだ収集や活用の段階にはなく、今後の展開が期待されている。サッカーに関しては、プレイデータでわかることは限定的であり、トラッキングデータにかかる期待が非常に大きいものの、現状では集計程度に留まっており、その発展が課題である。(4)「医学分野でのシミュレーションの応用」医学分野でのシミュレーションの応用のセッションでは、実際に新薬の臨床開発において意思決定に使用されている例もあるが、事例としてはそれほど多くない。今後も引き続きこのような事例の共有をすすめ,応用事例を増やしていくことが課題である。分子設計に関する現状は,既存薬の分子設計をすることができており、今後は新薬の分子設計に応用していくことや、薬剤だけでなく物質の分子設計などにも貢献することが期待されている。(5)「アジアの公的ミクロ統計の活用」1)我が国の戦前期の農家経済調査について、調査票の電子画像化は終えており、調査内容のデータ入力を順次実施している。研究上のユーザビリティを担保とした秘匿内容の確立が課題である。戦後の農林水産統計資料は、2000-2010年までの農林業センサスの各年の個票が利用可能であり、さらなる遡及パネルデータセットの構築に向け、効率的なマッチング手法を確立することが課題である。2)ベトナムの分析については2006年のデータまでの分析にとどまっているため、順次利用可能になった新しいデータにより分析をアップデートする必要がある。また都市内・農村内格差が拡大する原因をより詳細に分析することが課題である。3)バングラデシュの家計調査の分析については、調査票の複数の項目の組み合わせで、世帯の類型化ができた。例えば、「両親不在」の子どもの中には、他の世帯で住込みで働いている子どもが含まれること、この「住み込み」の子どもたちは、特に就学率が低いことが分かった。4)タイとスリランカのミクロデータを用いた分析では地域格差や2国間の比較ができた。今後も各調査においては新しいデータが追加されることが期待され、新しい成果が得られると考えられる。5)アジアの世帯調査のデータベースの基盤整備(オンサイト環境整備)の方は、ほぼ完了した。利用者の確保、利用可能なデータ増が今後の課題である。6)現在はインドネシア、スリランカ、タイ及びベトナムのデータが可能となっている。年次、国・地域を順次増やしつつ、データの整備をすることが今後の課題である。

新たに明らかになった課題、今後解決すべきこと

(1)「統計的従属性モデリングの理論と応用」既存の理論は強固なベースラインを成すが、それだけでは大規模従属データ解析の実装とはまだ乖離がある。そのギャップを埋めるべく、方法論および数値計算・アルゴリズムの整備・拡充・昇華が不可避である。(2)「超高頻度データ解析と計算統計」超高頻度データに基づく確率過程の統計推測では、高次元のパラメータ推定が困難になる場合が多く、計算統計学の観点から効率よく統計量を計算することが喫緊の課題である。最尤型推定量はもとより、ベイズ型推定量の計算統計理論の整備やモデンテカルロ法による有効なアルゴリズムの開発が望まれる。(3)「スポーツにおけるビッグデータの活用」サッカー・野球いずれにおいても、トラッキングデータの精度に関するデータ収集上の技術的な問題点が明らかとなった。既存のプレイデータとの連動が課題である。また、選手間、ボールなどとの連動性をどのように統計モデルに組み込むかも今後の課題である。(4)「医学分野でのシミュレーションの応用」医学分野でのシミュレーションの応用のセッションでは、実際に新薬の臨床開発において意思決定に使用されている例もあるが、事例としてはそれほど多くない。今後も引き続きこのような事例の共有をすすめ、応用事例を増やしていくことが課題である。分子設計に関する現状は、既存薬の分子設計をすることができており、今後は新薬の分子設計に応用していくことや、薬剤だけでなく物質の分子設計などにも貢献することが期待されている。(5)「アジアの公的ミクロ統計の活用」1)アジア諸国の家計調査における自給の扱いは差異があり、国際比較という観点からは、日本の戦前期農家経済調査の取り扱いを、残存する実施要領など資料に基づき整理しておくことが必要である。2)ベトナムの統計分析については、フロアから、都市・農村内での所得階層において低所得層が固定化しているのではないか/企業、事業体のマイクロデータを用いている分析との関連はどうか/南北ベトナムの初期条件が格差に影響しているか等のコメントが出された。都市・農村内での低所得層の固定化の問題、また企業、事業体のマイクロデータの利用による農村工業従事者の家計の把握、南北ベトナムの初期条件の考慮(歴史的経緯の考察)等、今後の課題である。3)バングラデシュの親同居・不在世帯の児童の仕送り金額の分布をグラフ化したところ、”格差”が非常に大きいことが分かった。子どもの就学状況を分析する際に、この仕送り金額の格差を、どのように考慮するかが課題である。また、所得に関する情報を取り入れた分析も必要である。4)家計収支の国際比較の際には、世帯類型が国によって違うことが問題である。アジアの家計調査では貧困問題に焦点を置いた分析が多くなされているが、データ上の整合性が不十分な点もあり、家計収支の分析においてはこれらの問題を十分に考慮することが必要である。5)ミクロデータの提供に対する認知度の向上と利用可能なデータ増によるデータベースの質向上が課題である。6)世帯類型も含め、各国統計のカテゴリーの微妙な違いを明瞭にし国際比較に資するデータベースの整備が必要である。

今後の展開・フォローアップ

(1)「統計的従属性モデリングの理論と応用」大規模従属データ解析の方法論の構築は、更なる理論発展と並行して今後の研究の主流の一つとなっていくであろう。特に本セッションで扱われた金融データ、気象データの分析を対象とする共同研究推進に努め、各研究分野との相乗的発展のみならず、融合的研究内容の創生をも目指していきたい。(2)「超高頻度データ解析と計算統計」超高頻度データに基づく確率過程の統計推測は理論と応用の両面において、さらなる発展が期待される研究分野の一つであり、その適用範囲は広い。今後、研究集会や共同研究等により、研究交流を深めて、この分野を進展させていきたい。(3)「スポーツにおけるビッグデータの活用」スポーツデータ解析コンペティション(12月審査会)において、サッカーおよび野球のトラッキングデータの部門を開催する。これにより、多くの研究者の手に実際にトラッキングデータが貸与され、さまざまな観点からの分析が大いに進むと期待される。その結果を受けて、その後の研究会等で情報交換を行い、研究を発展させていきたいと考えている。(4)「医学分野でのシミュレーションの応用」医学分野でのシミュレーションの応用のセッションでは、今後もモデリング&シミュレーションを利用した応用事例、Adaptive designの事例、分子設計問題の応用事例など引き続き情報共有する場を作っていきたい。(5)「アジアの公的ミクロ統計の活用」1)我が国の戦前期農家経済調査については、秘匿した電子調査票、ならびにデータセットが公開される。戦後農林水産統計については、京都大学寄附講座農林水産統計デジタルアーカイブ講座が実施する農林水産統計の高度利用分析にかかわるプロジェクト研究の一環として、整備された研究成果が広く共同研究に資する予定である。2)ベトナムのマイクロデータは新しい版が順次利用可能になっているため、それらを用いて情報・分析のアップデートを試みる。また都市内・農村内格差が拡大していることがわかったため、Income and expenditure survey以外の情報も用いたより詳細な分析を行うことで、その原因を探る。3)親同居・不在世帯の児童の状況については、バングラデシュにとどまらず、国内および海外出稼ぎが盛んな東南アジアおよび南アジアのミクロデータを用いて、各国比較をすることで研究を発展させる。4)家計収支の国際比較については、時系列分析やタイやスリランカ以外の国を加えた比較を積極的に行っていく。5)広報活動の充実によるサービス認知度の向上を図る。6)順次、国、年次を加え、国際比較可能な共通の土台を持つデータベースの拡大を図る。