数学・数理科学と共に拓く豊かな未来 数学・数理科学と諸科学・産業の恊働による研究を促進するための「議論の場」を提供
項目 内容
研究集会等の名称 統計科学の新展開と産業界・社会への応用
採択番号 2016W04
該当する重点テーマ ビッグデータ、複雑な現象やシステム等の構造の解明 、疎構造データからの大域構造の推論 、過去の経験的事実、人間の行動等の定式化 、計測・予測・可視化の数理 、リスク管理の数理 、最適化と制御の数理
キーワード 欠測データ 、バイオメディカルビッグデータ 、スポーツアナリティクス 、ヒトゲノムデータ 、グラフ列挙法
主催機関
  • 金沢大学人間社会研究域経済学・経営学系
運営責任者
  • 星野 伸明
開催日時 2016/09/05 13:00 ~ 2016/09/06 17:30
開催場所 金沢大学角間キャンパス
最終プログラム

yousishu

9月5日(月)
13:00~
数学協働プログラムの活動紹介 伊藤 聡(統計数理研究所)

13:00~15:00
欠測データの解析:基礎理論と実践的な方法論の発展

オーガナイザー:星野崇宏(慶應義塾大学)・野間久史(統計数理研究所)

座長:星野崇宏(慶應義塾大学)・野間久史(統計数理研究所)


1.
諸分野での欠測データ解析の動向と研究テーマの潮流のレビュー
星野 崇宏(慶應義塾大学)

2.
多重代入法におけるロバストな推測方法
野間 久史(統計数理研究所)

3.
重み付き推定方程式と二重ロバスト推定法
逸見 昌之(統計数理研究所)

4.
臨床試験における欠測データの解析,MMRM とその最新の研究
五所 正彦(筑波大学)

 

15:30~17:30
超高速グラフ列挙法と統計学への応用
オーガナイザー:
水田正弘(北海道大学)・湊真一(北海道大学)・栗原考次(岡山大学)

座長:栗原考次(岡山大学)

 

1.
データ解析における超高速グラフ列挙技法および連結成分列挙技法の活用について
水田 正弘(北海道大学) 

2.
離散構造処理系プロジェクトと超高速グラフ列挙技法
湊 真一(北海道大学)

3.
公的統計の地域別集計分析への利用可能性
谷道 正太郎(統計センター)

4.
一票の格差が小さな選挙区割の列挙
川原 純(奈良先端科学技術大学院大学)・堀山 貴史(埼玉大)・
堀田 敬介(文教大)・湊 真一(北海道大学)


5.
空間データに対するホットスポット検出手法の性質評価について
石岡 文生(岡山大学)・栗原 考次(岡山大学)・水田 正弘(北海道大学)

 


9月6日(火)


10:00~12:00
スポーツアナリティクスの広がり
オーガナイザー:酒折文武(中央大学)
座長:酒折文武(中央大学)

 


1.
野球選手における脊椎・体幹部障害のマネジメント - 競技復帰時期予測の苦労 -
加藤 欽志(福島県立医科大学)

2.
成績・試合情報をもとに先発投手を予想する方法


 大川 恭平(データスタジアム株式会社)・宮﨑 誠也(東京工業大学)
 ・金沢 慧(データスタジアム株式会社)・上原 早霧(データスタジアム株式会社)

3.
MLBトラッキングデータを用いた捕手のフレーミング評価法について

永田 大貴(慶応義塾大学)・南 美穂子(慶応義塾大学)

4.
サッカートラッキングデータから守備戦術技能を測る

松岡 弘樹(筑波大学)・猶本 光(筑波大学)・田原 康寛(筑波大学)・見汐 翔太(筑波大学)・安藤 梢(筑波大学)・西嶋 尚彦(筑波大学)

5.
サッカートラッキングデータに関する統計的モデリング
酒折 文武(中央大学)


13:00~15:00
ライフイノベーションを推進するバイオメディカルビッグデータ解析の新潮流
オーガナイザー:
島村徹平(名古屋大学)・新井田厚司(東京大学)・白石友一(東京大学)

座長:島村徹平(名古屋大学)・新井田厚司(東京大学)・白石友一(東京大学)

1.
局所距離相関に基づくモジュレーター因子の網羅的探索法
島村 徹平(名古屋大学)・松井 佑介(名古屋大学)・宮野 悟(東京大学)

2.
大規模がんゲノム変異データマイニングのための統計学的手法
白石 友一(東京大学)
 
3.
がんの進化シミュレーションによる腫瘍内不均一性生成原理の探索
新井田 厚司(東京大学)
4.
多重検定補正法の生命系大規模データへの応用
瀬々 潤(産業技術総合研究所)

5.
共発現解析による軽度認知障害の血漿 microRNA マーカーの検出
茅野 光範(帯広畜産大学)・檜垣 小百合(国立長寿医療研究センター)・
佐藤 準一(明治薬科大学)・松本 健治(国立成育医療研究センター)・滝川 修(国立長寿医療研究センター)・新飯田 俊平(国立長寿医療研究センター)


15:30~17:30
ヒトゲノムデータの遺伝統計解析

オーガナイザー:鎌谷洋一郎(理化学研究所)
座長:鎌谷洋一郎(理化学研究所)

1.
Chromatin configuration QTL mapping using ATAC-seq
熊坂 夏彦(英国サンガー研究所)・Andrew Knights(英国サンガー研究所)・Daniel Gaffney(英国サンガー研究所)

2.
全ゲノムシークエンスによる肝癌の変異の包括的解析
藤本 明洋(京都大学)・古田 繭子(理化学研究所)・
十時 泰(国立がん研究センター)・角田 達彦(理化学研究所)・
加藤 護(国立がん研究センター)・柴田 龍弘(国立がん研究センター)・
中川 英刀(理化学研究所)

3.
遺伝統計解析で迫る疾患病態の解明とゲノム創薬
岡田 随象(大阪大学)

4.
ゲノムワイド関連解析による高血圧遺伝子の解明
竹内 史比古 (国立国際医療研究センター)

5.
統計遺伝学モデルを用いた多因子疾患の発症リスク予測法
八谷 剛史(岩手医科大学)

 

参加者数 数学・数理科学:84、 諸科学:29、 産業界:23、 その他:157
当日の論点

(i)ほぼすべての調査・実験研究において、計画されていた通りに完全なデータの測定ができることはなく、なんらかの形で「データの欠測」が発生する。長らく統計解析の実務において、欠測の適切な取り扱いは曖昧な位置づけにされてきたが、近年、医薬品開発の臨床試験における欧米でのガイドライン作成などを受け、さまざまな分野における研究・実務において科学的妥当性を担保するための議論が進められている。本セッションでは、本邦における関連研究テーマの理論・応用に関する最先端の研究成果を有する研究者が、近年の研究の動向と基礎理論・方法論の解説を行い、広く有用な知見を共有することを目的とした。
(ii) 超高速グラフ列挙法の概要と基本原理の紹介、統計学への適用可能性について報告したのち、公的統計の地域別集計分析への活用例、一票の格差が小さな選挙区割の列挙、空間データに対するホットスポット検出手法など具体的な問題解決について扱った。
(iii) スポーツに関するビッグデータの活用の現状と課題、そしてスポーツ現場における実際のデータ活用の苦労や問題点について、野球とサッカーの事例報告と討論を行った。
(iv) 国内で統計科学、機械学習、計算科学を武器に生命科学分野を切り開いている研究者が集まり、それぞれの研究分野についての講演がなされた。ワークショップには約30~40名程度の参加者が集まった。名大院医の島村は遺伝子発現プロファイルから、発現制御に関わるモジュレーター因子を同定する方法について講演した。東大医科研の白石氏は変異リストをマイニングする新しい統計手法について講演した。東大医科研の新田氏はがんゲノムにおける変異のプロファイルを説明する数理モデルと、そのシミュレーションについて講演した。産総研の瀬々氏は多重検定補正法の生命系大規模データへの応用について講演した。帯畜大の茅野氏は共発現解析による軽度認知障害の血漿microRNA マーカーの検出法について講演した。
(v)あまり大きな議論はなかった。ほぼレクチャーに近いセッションとなり、質問も、多くは(挙手が他になかったため)我々の中で回していた。

研究の現状と課題(既にできていること、できていないことの切り分け)

(i)先述の通り、欧米でのガイドライン整備などを受け、実践的な方法論の整備と普及は急速に進んでいる。一方で、それらの方法論の背景にある理論・方法論についての正しい知見は、産学官のデータサイエンスの実務家・研究者の間で十分に普及しているとはいえず、さらなる研究・教育活動は不可欠である。
(ii)これまで、実現不可能であった大きさのグラフ(隣接関係のデータ)について、連結部分集合の列挙が可能になった。頂点数が47および100の例についてはすべての連結部分集合を正確に列挙することができた。現時点で、頂点数が177の例については、すべての連結部分集合を列挙することはできなかったが、部分集合の成分数を12までに制限した場合については対応できた。
(iii)選手やボールのトラッキングデータ(軌跡)に関する統計分析や統計的モデリングによる戦術や選手の評価の可能性が広がりつつある。さらなる精緻化や現場へのフィードバックが課題である。
(iv)現在、生命科学の分野では未曽有のスケールのバイオメディカルデータが生み出され続けれ、統計科学の重要性は益々高まっている。その一方で、データの解析に必要な前処理や生命科学に関する基本的知識も必要になってきており、今後膨大なデータが蓄積していくなかで、データを多角的視野から捉えつつ解析・解釈し、生体内の法則性の再現、予測、制御を目指すデータ駆動型の研究アプローチの開発を進めていく必要がある。
(v)近い分野のバイオインフォマティシャンであっても我々のやっていることはほとんど知らない。ましてや数理統計では、存在すら知られていないかもしれない。今回は、少しでも幅広く知ってもらいたいという気持ちで開催した。

新たに明らかになった課題、今後解決すべきこと

(i)大会場の講堂が満席になるほどの大きな反響を得られた。セッション終了後も、最新の研究の動向についての活発な議論が寄せられ、産学官のいずれにおいても、当該研究テーマに対する高い要請があることを伺わせた。
(ii)今回、報告されたいくつかの応用分野について、本アプローチの有用性が明確に示された。今後、アルゴリズムの改善及び、統計学における新たな適用分野の検討が大きな課題として残されている。
(iii)現在までに進んでいる分析は非常に限定的であること、データの精度の問題などが課題である。また、スポーツ医学などより広い分野での統計分析の必要性が再認識された。
(iv)現在、生命科学の分野では未曽有のスケールのバイオメディカルデータが生み出され続けれ、統計科学の重要性は益々高まっている。その一方で、日本国内では当該分野のデータサイエンスを牽引する人材の不足が深刻化している。本セッションでは、若手研究者の新規参入へのきっかけを提供することが一つの達成目標であったが、今後も引き続き同様の活動を続けていく必要がある。
(v)セッションを行ったことで明らかになったことというか、改めて浮き彫りになったことは、近い分野のバイオインフォマティクスですら遺伝統計学の知識には乏しく、今後も普及活動を行っていくべきだということ。

今後の展開・フォローアップ

(i)産学官、また、専門分野の垣根を越えた協働・連携を強化し、本邦における研究活動を発展させることはもちろん、同様の教育・啓蒙活動にもますます力を注いでいきたい。
(ii)本企画セッションで報告したメンバーを中心に本研究課題を積極的に推進する予定である。また、我国発の数理的な研究成果として国際会議での発表および国際的ジャーナルへの投稿を準備中である。
(iii)本年度12月、3月に研究集会を開催し、さらには来年度以降も継続する予定である。今回をきっかけにして、より深い情報交換、さらには共同研究を推進する。
(iv)本ワークショップでは、聴講者が生命科学に関する基礎的知識を基本的に必要としないよう各発表者が発表内容に心がけたが、その一方で限られた時間の中で、生物学的知識および各発表者の研究成果を説明するのに限界があるようにも感じた。これらを解決するために、継続的に同様の研究集会やワークショップを開催することでフォローアップを図りたいと考えている。また、生物学や医学など他の学術分野との連携ワークショップ等についても検討したい。
(v)数理統計などの人の参加を期待していたが、会場も離れていたし、ほぼなかったように思う。少なくとも質問はなかった。ほぼ、(もともと近い分野で、直前のセッションの開催でもあった)バイオインフォマティクスの人と、セッション開催の遺伝統計の人とで質問も回していた。広報活動をもう少しすべきだったかもしれない。ただ、以前数学者から、いきなり連携しようと言っても面喰らうので、根気強く接触すべきだとの金言をいただいたことがあり、今後の展開・フォローアップにつながるようにと期待しつつこれからも続けられればと思っている。