平成282016)年度 重点型研究実施報告書

 

課題番号

28−共研−4408

分野分類

統計数理研究所内分野分類

f

主要研究分野分類

9

研究課題名

柔軟なファクトブックの自動生成のためのグラフデータベースの研究

重点テーマ

学術文献データ分析の新たな統計科学的アプローチ

フリガナ

代表者氏名

ホンダ ケイスケ

本多 啓介

ローマ字

Honda Keisuke

所属機関

統計数理研究所

所属部局

運営企画本部

職  名

リサーチ・アドミニストレーター

配分経費

研究費

40千円

旅 費

0千円

研究参加者数

6 人

 

研究目的と成果(経過)の概要

本研究の目的は大学・研究機関における戦略、意思決定に資するツールとしてのファクトブック機能
に注目し、より柔軟な分析のためのデータ生成を念頭においたレポートの可視化機能を実現するために
「グラフ」データベースに注目し、大規模な書誌データを対象として情報基盤を構築、検証することにあった。
その目的達成のため、今年度は
書誌データとしてWeb of Science Core Collection(WOS)を採用し、2005年から2014年の10年間のデータを用いた。
またデータベースには、オープンソースのグラフデータベースとして実績のあるNeo4jを採用した。
投入したデータの規模は総ノード数が1億3821万9658、総エッジ数は6億9183万7443となっている。
データスキーマ(モデル)としてはできるだけ元のWOSの構造を維持したまま、グラフ構造として表現することを試みた。書誌のタイトルやIDと言った情報はSourceノードとし、分野の情報はSubjectノード、著者の情報はAuthorノード、著者が所属する機関の所在などはAddressノード表現した。このノード間の関係(リレーショナルシップ)として引用を表すreference、書誌と分野はclassified、著者と書誌はproduce、著者と所属はlocated、といった関連づけを行い、ネットワーク構造を表現した。計算資源としては統数研共用クラウドや一部統数研の他の計算サーバを利用した。
実際にIRツールとしての検証として、本重点テーマの他の課題への利用提供を実施した。すなわち、各課題が書誌データ分析を行う際に実際に利用してもらった。たとえばある課題ではこのデータベースを用いて所属大学の機関内(学部間)の経年のアクティビティや大学内部局の強みを可視化を行った。
彼らに利用してもらうことで多くのフィードバックを得ることができ、データモデルの修正、改良などに繋がった。
この成果はデータモデルPhase2として次期バージョンにも適用予定である。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

キックオフ、
http://www.ism.ac.jp/ura/events/160525.html
成果報告会
http://www.ism.ac.jp/ura/events/170210-11.html
のほかに
RA協議会第2回年次大会、
http://www.rman.jp/meetings2016/
日本計算機統計学会シンポジウム
http://jscs.jp/sympo/30/
での企画セッションのほか
日本行動計量学会. 行動計量学 岡山地域部会
http://mo161.soci.ous.ac.jp/bsj_okayama/prog16_1.html
や大学評価コンソーシアム第3回IR実務担当者連絡会
http://iir.ibaraki.ac.jp/jcache/documents/2016/h28-1213_IR_seminar3.pdf
でも発表を行った。




研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

キックオフ
2016年5月25日(水) 13:00-18:00
セミナー室2 (D304)
参加人数 35名
http://www.ism.ac.jp/ura/events/160525.html

成果報告会
2017年2月11日(土) 10:00-17:00
セミナー室1 (D305)
参加人数 40名
http://www.ism.ac.jp/ura/events/170210-11.html

 

研究参加者一覧

氏名

所属機関

孫 媛

国立情報学研究所

西澤 正己

国立情報学研究所

Frederick Kin Hing Phoa

Institute of statistical Science

水上 祐治

日本大学