平成292017)年度 重点型研究実施報告書

 

課題番号

29−共研−4309

分野分類

統計数理研究所内分野分類

j

主要研究分野分類

9

研究課題名

コンペティション形態の分類に基づいたデータ分析ハッカソンの計画・実施

重点テーマ

データサイエンス人材育成メソッドの新展開

フリガナ

代表者氏名

カミヤ ナオキ

神谷 直樹

ローマ字

Kamiya Naoki

所属機関

統計数理研究所

所属部局

統計思考院

職  名

特任准教授

配分経費

研究費

40千円

旅 費

0千円

研究参加者数

4 人

 

研究目的と成果(経過)の概要

研究目的:国内外で広く行われているデータサイエンスに関連したコンペティションを調査し、その形態を明らかにする。そして、我が国のデータサイエンティスト育成に適したコンペティションを計画・実施する。

成果(経過):これまでの調査結果に基づくと、データサイエンスに関連したコンペティションの形態は様々ではあるが概ね4類型に分類できる。分類軸は、「課題設定」(予測精度を競うような予め正解が設定されているタイプ/データ分析の結果から新しい提案を行うことが求められるオープンな課題設定タイプ)と「分析・開発環境設定」(統制された環境で行うタイプ/参加者が自由に環境を選べるタイプ)である。本計画ではまず、この分類軸の蓋然性を再調査によって確かめた(調査対象は、26のコンペティション、あるいはコンペティション・プラットフォームであった)。
 オープン・データが提供されるか否かも、「分析・開発環境設定」(統制された環境で行うタイプ/参加者が自由に環境を選べるタイプ)に基づく分類に関わる。調査対象のコンペティションの多くではオープン・データが使用され、参加者は自由に分析・開発環境を選ぶことができた。このようなコンペティションは、統制された環境で行うタイプのコンペティションに比べて企画・運営上の負担が相対的に小さいが、データサイエンス・スキル以外の要素が参加者の成果に影響しうる。特に、参加者に提供されるデータが複雑で巨大なデータ集合の集積、いわゆるビッグデータである場合には、参加者が用意できるハードウェア環境の良し悪しが成果に影響する。一方で、参加者が自由に環境を選べるタイプのコンペティションには、参加者は所在を制限されることがないという利点がある。したがって、統制された環境で行うが、参加者は所在を制限されない新しいタイプのコンペティション実施が必要と考えられた。
 また、検証対象の分類軸に含めていないが、コンペティションを教育の一環とみなすときには参加形態(個人参加、あるいはチーム参加)について考慮することも重要である。複数人で行う実習は、一個人で行う実習より高い教育効果が得られることは既に知られている通りである。「棟梁レベル」人材(大学共同利用機関法人情報・システム研究機構 ビッグデータ利活用に係る専門人材育成に向けた産学官懇談会 「ビッグデータ利活用のための専門人材育成について」, 平成27年7月30日)育成には、データサイエンス・スキルを高めるだけでなく、チームで課題に取り組むことも必要である。チームで課題に取り組む場合には、予測精度を競うような予め正解が設定されているタイプのコンペティションに比べて、データ分析の結果から新しい提案を行うことが求められるオープンな課題設定タイプのコンペティションの方が相対的に数多く行われている。
 以上の観点から、統計数理研究所の共用クラウド計算システムを使用してデータ分析ハッカソンを実施した。ネットワーク環境、クラウド・インスタンスに用意するソフトウェア構成とクラウド・インスタンスの仮想ハードウェア条件等を十分検討するとともに、事前テストを入念に行った。そして、実施後に参加者からのフィードバック等に基づいて改善点の検討を行った。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

データ分析バーチャル・ハッカソン2017
http://www.ism.ac.jp/shikoin/training/hackathon2017/hackathon2017.html
テーマ:不動産関連データに基づく新しい価値創造
日時:2017年12月22日〜2018年3月20日
場所:統計数理研究所セミナー室1・セミナー室4
参加者数:22人

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

開催していない。

 

研究参加者一覧

氏名

所属機関

川崎 能典

統計数理研究所

丸山 宏

株式会社Preferred Networks