響き合う人とデータ―統数研プロジェクト紹介

第15回「統計思考院におけるデータサイエンス高度人材育成プログラム」

実社会で活躍できる「棟梁レベル」のデータサイエンティストを育成

日本では今、データサイエンティストの圧倒的な不足が指摘されている。特に求められているのが、多くのデータサイエンティストたちを束ねる“棟梁”のような存在だ。統計数理研究所の中で人材育成に特化した組織である統計思考院は、日本社会に棟梁レベルの人材を増やすべく、裾野から頂点まで幅広い範囲をカバーする教育プログラムを開発、実施している。

統計思考力を備えたT型人材を育てる“道場”

▲川ア能典統計思考院長

統計数理研究所の一角に、銘木の扁額が掛かった部屋がある。「統計思考院」の堂々とした揮毫は、情報・システム研究機構の北川源四郎前機構長の筆によるものだ。

統数研が「統計思考力を備えたT型人材の育成」を掲げて統計思考院を立ち上げたのは、今から7年前の2011年。ここでいう「T型人材」とは、専門分野の深い知識を縦軸とし、統計学という分野横断型の広い知識を横軸として備えた人材を意味する。統計思考院長を務める川ア能典教授は、そのミッションを「人材育成のための教育プログラムを企画・開発し、世の中に提供すること」と説明する。

統計科学の博士の輩出については、統数研はもともと総合研究大学院大学複合科学研究科統計科学専攻での教育を担っている。統計思考院ではこれとは別に、社会人や他大学の学生などにも間口を広げ、多様な統計教育を展開している点に特色がある。

例えば、以前から統数研が社会人向けに開催していた公開講座や統計相談などの活動を統合・拡大し、現在は統計思考院の事業として継続。特に、あらゆる産業でデータサイエンスの知識が求められるようになった昨今、公開講座は大人気だ。2017年度には一般講座として「スパース推定」「ロバスト統計〜外れ値への対処の仕方」「時系列解析入門」などのテーマで講座を開催し、延べ944人が受講した。

川アは「学生時代に理論を学ぶことも重要ですが、統計学の必要性を痛感するのは、実社会に出てデータ分析の課題に直面したときでしょう。統計学が“大人の学問”といわれる所以です」と話す。

研究者や学生はもちろん、固有分野の研究で統計学の必要性を感じた社会人などさまざまな人が集い、切磋琢磨しながら統計思考の訓練や研究をする。統計思考院は、そんな「道場」のような場だ。

統計数理の知識を効率的に習得させる「リーディングDAT」

今、日本ではデータサイエンティストの不足が国家的な課題となっている。なかでも圧倒的に足りないのが、一般的なデータサイエンティストを指導し、統括するリーダーの存在だ。

情報・システム研究機構ビッグデータ利活用に係る専門人材育成に向けた産官学懇談会の報告書は、1年間に育成すべきデータサイエンティストの人数分布をピラミッド型で示している(図1)。

図1:左の図は、1年間に育成すべきデータサイエンティストの人数分布を表す。右側の2枚の図のように、現状では不足している棟梁レベルの人材を
500人程度育成すれば、トップタレントが生まれる土壌となると同時に、大学や企業でのデータサイエンティスト育成の促進につながる効果が期待できる。

理想は、大学では基本的なデータリテラシーを身に付け、理系修士では統計検定2級程度のスキルを習得する。このレベルを「見習い」とし、その上位ランクには検定準1級相当の「独り立ちレベル」、さらにこの層を統括する1級相当の「棟梁レベル」が存在する、というものだ。

ところが報告書によれば、現在の日本は、ピラミッドの底辺に比べて棟梁レベルの層が極めて薄く、そのことが人材輩出システムのボトルネックとなっている。

そこで、統計思考院では棟梁レベル人材の戦略的育成に乗り出した。その一つが、統計数理の知識とスキルを持ったデータサイエンティスト(Leading Data Analytics Talents)の育成を目的とする「リーディングDAT」。2017年度に新たに編成したプログラムだ。

このプログラムは「リーディングDAT講座」と「リーディングDAT養成コース」で構成される(図2)。

図2:リーディングDATの概念図と、2017年度の開催の様子。養成コースの修了者には樋口知之統計数理研究所長から認定証が授与された。

前者は、棟梁レベルをめざすデータサイエンティストに必須の統計数理の知識を効率的に習得させることを目的とする講座だ。初年度は「実践ベイズモデリング」(L-B1)と「機械学習とデータサイエンスの現代的手法」(L-B2)の2講座を開催し、それぞれ61人が受講した。

一方、後者は少人数のハイポテンシャルな人材を対象とする。リーディングDAT講座を受講した後、その内容に関する実践的な課題が出され、1カ月かけて取り組んだ結果をレポートにまとめる。レポートの評価が合格で、かつ講評会と特別講演に出席した受講者には修了認定証が交付される。17年度は募集人数を大幅に上回る申込者の中から34人が受講し、そのうち25人が認定証を受け取った。

「短期間でさまざまなトピックを体系的に学び、自分でデータを扱う訓練ができる。社会人にとって、すぐ業務に生かせる内容となっています」と川アは言う。L-B1を受け持ったモデリング研究系の野村俊一助教は「データ分析をなるべく実践的に教えました。レポートを読むと、概ねきちんと分析できているものの、テクニカルな部分で勘違いをしている人も。間違いやすい部分は講評会で補足しました」と話す。

高度な内容の講評や講義は統数研ならではだが、受講者のレベルは一律ではない。大学で統計学の理論を学んだ人は少ないのが実情だ。そこで、2018年度からは、3日間でデータサイエンスの基礎を学ぶ入門講座(L-A)も新設した。初心者から最高レベルまでのラインナップを揃え、一貫して教えられるのも、統計専門家を擁する統数研にしかできない取り組みだ。

▲野村俊一モデリング研究系助教▲清水邦夫特命教授▲神谷直樹特任准教授

データ解析・統計分析のお悩み相談「共同研究スタートアップ」

公開講座と同様に、以前から実施していた統計相談を引き継いだのが、統計思考院の実施する「共同研究スタートアップ」プログラムだ(図3)。社会人や統計学以外の研究者など、データ解析・統計分析に関わる問題で悩んでいる人々に対し、共同研究のコンサルティングを行う。清水邦夫特命教授をはじめとするベテラン教授陣が統計思考院に所属する若手研究者とペアになり、持ち込まれた課題の解決を支援する。

図3:共同研究スタートアップでは、統計思考院のベテランと若手が企業や他分野の研究者の相談を受けてアドバイスする。内容によって、共同研究に発展することも。

豊富な経験と知見を生かし、取得済みのデータに関する解析法だけでなく、データの収集法や調査の方法、実験の計画など、事前準備の段階も含め、豊富な経験と知見を生かした助言が好評を博している。清水は「年間50件ほどの相談を受け付け、そのうちの4〜5件は共同研究に結びついています」と実績を紹介する。

清水は、統計思考院の役割を戦後の大学と製造業の関係になぞらえる。「アメリカで開発されたQC活動を日本の大学が企業へ紹介し、指導しました。そして日本はものづくり大国になった。ビッグデータ時代の今、企業だけではできない統計分析を統計思考院が主導し、支援していく必要があると思います」。

さらに、この取り組みは、相談者への貢献に留まらない。数多くの多様なデータに触れ、実社会での課題解決に携わることは、特任助教などとして統計思考院へ配属された若手統計学者にとっても貴重な経験になる。「ここから巣立った人は皆、大学や研究所の良いポジションに着いています」と清水が言うとおり、有効なキャリアパスとなっている。

企業の生データを扱えるのが魅力「データ分析ハッカソン」

統計思考院では、次代を担う学生や若手社会人にも成長の場を用意している。「データ分析ハッカソン」は、チームごとにデータ分析スキルを駆使し、社会問題の解決や新規サービスの提案といった正解を決めにくい課題を競い合うイベントだ(図4)。

図4:2017年度のデータ分析ハッカソンには6チームが参加。メンバーはデータ補正やモデル化、事業化のアイデア出しなど役割分担をすることで、自分
の得意分野に気づくことができる。オンプレミスの共用クラウド計算システム上に仮想デスクトップ環境を用意し、高いセキュリティを確保したうえで実施。

一般的なハッカソンとの最大の違いは、企業などが保有する生データに対するデータ分析スキルを重視することだ。例えば、「販売データを基に売上げアップにつながる新たなサービスを提案する」といったテーマでハッカソンを実施する場合、リアルなデータの確かな分析に基づいた提案でなければ意味がない。だが、企業は当然ながら、秘匿性の高い生データを外部へ出すことには慎重だ。統計思考院が生データを提供してもらえるのは、統数研への信頼はもとより、専用のクラウド計算システム上に仮想デスクトップ環境を用意し、高いセキュリティーを確保しているからだ。

データ分析ハッカソンを担当する神谷直樹特任准教授は「座学では、これほど大規模な、しかも不整合の多い、いわゆる“汚れたデータ”を扱う機会はありません。この経験を通じて参加者は自分の実力に何が足りないか分かり、次のステップへ進むことができるのです」とその意味を語る。

時代に応じて、さまざまな場面で必要とされるデータサイエンティストを育て、社会へ送り出す――。統計思考院の存在意義は、ますます重要性を増している。

(広報室)


ページトップへ