様式Ｃ－２－４

平成30（2018）年度　重点型研究実施報告書

課題番号	30－共研－4217		分野分類			統計数理研究所内分野分類			j
						主要研究分野分類			2
研究課題名	個々の研究取組を特徴づける用語群特定手法
重点テーマ	IRのための学術文献データ分析と統計的モデル研究の深化
フリガナ代表者氏名	ヒロモリアキヒト廣森聡仁				ローマ字		Hiromori Akihito
所属機関	大阪大学
所属部局	経営企画オフィス
職　　名	准教授
配分経費	研究費	40千円		旅　費		153千円		研究参加者数		3　人

研究目的と成果（経過）の概要

・研究目的
　文部科学省における第5期科学技術基本計画に示されるように，産学官連携・地域科学技術施策に関して，民間企業とのマッチング，地方創生に資するイノベーションシステムの構築など，様々な取組が推進されている．しかしながら，このような産学連携につながる研究取組は一部に留まっており，大学における多様かつ先進的な研究取組が十分に活用されているとはいえない．本申請では，書誌データや外部資金データなどの研究データに基づき，研究取組を特徴づける用語群を様々な観点から機械的に導出することで，個々の研究者が推進する研究取組の特徴を明らかにすることで，社会的な大きな変化につながるイノベーションが創出されるよう，産学連携の様々な取組を支援することを目的とする．

・研究概要
　大学において運営される研究者データベースの多くは，個々の研究者が論文の書誌情報や自身の研究専門分野など，研究取組に関する様々なデータを個別に入力するものとなっており，研究者への負担が少なくない．全ての研究者が研究取組データを適切に入力するわけではないため，研究取組データの完全性や網羅性は低く，研究者データベースに基づき，大学における研究取組を把握することは困難である．また，必ずしも産学連携につながるような観点から研究取組データを管理しているわけではなく，異分野との連携に代表されるイノベーションの可能性を把握することは難しい．
　一方，産学連携に代表されるURAの取組において，論文データベースが広く活用されており，各研究分野におけるトップの研究取組を定量的に把握できるものの，このデータベースの活用により，特徴的な研究取組が初めて発見されるような事例は少ない．また，書誌データを分析する取組は多数為されており，様々な指標が検討されているが，引用関係を解析することに留まっており，多様的な観点から研究取組が評価されるものではない．一方，書誌データにおける研究分野はアカデミックな観点から定められるため，産業界における観点との差が少なからず存在し，産業界における取組との適切なマッチングが難しい状況にある．そのため、URAの活動においては，人手を要するピュアレビューにより，個々の研究取組を判断することが多く，大学における様々な研究取組を網羅的に扱うことは困難である．論文データベースで保持する書誌データや外部資金データなど，研究取組に関わるデータは多数存在するにもかかわらず，上記に示すように，実態としては，一部のデータしか活用されておらず，また，限られた観点からの分析に留まっているため，異分野の融合に代表されるようなイノベーションの創出につながっていない．
　本申請では，社会的な大きな変化につながるイノベーションが創出されるよう，クラウド基盤を活用した膨大な計算資源，自然言語処理などの最新の情報処理技術を活用することにより，様々な観点に基づき，個々の研究取組を特徴づける用語群を導出することで，いままで把握できていなかった特徴的な研究取組を明らかにする．

・研究成果（経過）の概要
　今年度，本取組においては，個々の研究取組に対する特徴的な用語群を抽出するための計算基盤の構築に取り組んだ．この計算基盤は，学内における様々なデータベースに加え，国立情報学研究所が運営する科学研究費助成事業データベースに代表される，学術に関わる大規模データベースで保持するデータに対する処理を高速かつ低コストで実行することができるよう， Amazon Web Services (AWS) が提供するサーバレスのサービスを適切に組み合わせて構築されている．複数のデータベースで保持するデータに対する加工処理は，一般にETL (Extract/Transform/Load) 処理と呼ばれており，本学においても，様々なデータに対し，異なる粒度で処理を施すことにより，大学運営に活用するためのデータを作成している．研究目的として挙げている，研究取組を特徴づける用語群の抽出に際しては，研究取組そのものの特徴だけでなく，その研究取組に関わる研究者の特定することも求められる．書誌データとして示されているような研究取組に対しては，本学で保持するデータベースにおける書誌データに記載された著者について，教員の所属を示す人事データ，また，学生の所属を示す学籍データを紐付けることで，研究者を特定することができる．一般に，著者の表記は，日本語表記においては旧字と新字が混在し，また，英語表記においては，氏名の一部が省略されているなど，必ずしも正確であるものではない．また，同様に，人事及び学生データにおける氏名のデータも必ずしも正確なものではなく，氏名に関わるデータを補正するなど，様々な加工処理が求められる．本学においては，人事及び学籍データにおける名寄せ，著者氏名の正規化，人事及び学籍データにおける氏名と著者氏名と紐付けの三つの加工処理により，個々の研究取組における研究者の特定を実現している．他の手続きにおいても，様々な加工処理が為されているが，処理規模に応じて，AWS のサービスを使い分け．これらの処理を効率よく実行している．まず，扱うデータが行列データであり，このデータに対する処理が簡単な結合や比較のみで構成される場合には， Amazon Athena を利用する．Amazon Athena は， Facebook 社が開発する分散SQLエンジン Presto をサーバレスアーキテクチャで実現するものであり，クエリ対象となるデータ量に応じた課金体系となっている．また，行列データを格納するファイルをそのままの形で処理することが可能であり，通常のSQLサーバを利用する際に求められるテーブルの設計，データインポートなど，サーバに関わる手続きも不要であり，データ処理に注力できる枠組みとなっている．同様に，行列データに対する処理が，SQLの枠組みに収まらない処理については， Amazon Glue を利用する．Amazon Glue は，行列データに対する分散処理を様々な言語で記述及び実行可能なApache Spark をサーバレスアーキテクチャで実現するものであり，Amazon Athena で対応できないような複雑な加工処理を施すことが可能である．このサービスも，Amazon Athena と同様に，行列データを格納するファイルをそのままの形で処理することが可能である．一方，上記二つのサービスに適さない処理については， Amazon Batch を利用している．Amazon Batch は，フルマネージド型バッチ処理基盤であり，加工処理の規模に応じて，利用するAmazon EC2 のインスタンスを自動的に調整可能なサービスである．扱うデータは行列データに限らず， Amazon Batch では，Amazon EC2 上で動作する Linux 上で実行される処理として定義されるものを扱うことができ，本学では，各種データベースから出力したファイルを，Amazon Athena 向けに変換する処理などに活用している．これらの三つの枠組みを組み合わせにより，本学における様々な加工処理が実現されており，上記に示しているような，研究取組における研究者の特定に関わる処理について，従来の単一のサーバでは10時間程度要していたが，新しい計算基盤においては，30分程度と大幅に削減し．また，AWSの利用料金は数百円程度に抑えることができている．今後は，当初の計画の目的と挙げていた研究取組を特徴づける用語群を導出までの様々な手続きを実現するとともに，それらの可視化にも取り組む予定である．

当該研究に関する情報源（論文発表、学会発表、プレプリント、ホームページ等）

今年度該当なし

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

今年度該当なし

研究参加者一覧
氏名	所属機関
河野麻里	大阪大学