平成292017)年度 重点型研究実施報告書

 

課題番号

29−共研−4215

分野分類

統計数理研究所内分野分類

j

主要研究分野分類

9

研究課題名

学術論文データベースを中心とした総合的な研究活動及び教育活動の分析

重点テーマ

学術文献データ分析の新たな統計科学的アプローチ

フリガナ

代表者氏名

ヒロモリ アキヒト

廣森 聡仁

ローマ字

Hiromori Akihito

所属機関

大阪大学

所属部局

経営企画オフィス

職  名

准教授

配分経費

研究費

40千円

旅 費

135千円

研究参加者数

5 人

 

研究目的と成果(経過)の概要

 大学全体の研究活動及び教育活動に対する総合的な分析を実現するために,学術文献データベースに基づく分析だけでなく,大学内外の様々なデータベース,特に大学内で活動する研究者及び学生に関わる情報を組み合わせることで,大学全体の研究活動の評価だけでなく,博士人材や若手研究者の支援,博士前期課程の教育内容及び博士後期課程の学生による研究活動の活性化など,研究大学としての様々な施策の検討に役立てることを目的としている.本学に所属するいずれの教員及び学生の構成員の業績であるかを特定するために,今年度は,昨年度に引き続き,名寄せ技術の開発と,名寄せ作業だけでなく,構成員に紐づく膨大なデータを分析するための計算基盤の検討及び構築に取り組んだ.
多くの企業においては,様々な情報システムを活用して業務を行っており,従業員や顧客などはマスターデータとして,一貫性のある統合されたデータとして管理されることが望ましい.しかしながら,異なる情報システムで,個々人を別々の形で管理されてしまっている場合には,必ずしもデータ項目が整っているわけではなく,あるシステムでは,姓と名を別々に管理しているが,もう一方のシステムでは,姓名を一つのデータとして扱うなど,様々な違いが見られる.また,同一のシステム内であっても,個々人の個人情報が適切に扱われていない場合があり,特に,外国人の人名を誤った形で登録されている場合が多く見られる.さらに,計算機上での文字表現の複雑さに起因し,誤った形で人名が登録される場合も多い.このような事例に対し,本学において,構成員に関わるデータをつなぎ合わせるために実施した様々な施策を紹介する.システム間の違いに起因する名寄せとしては,データ項目の分離や統合,半角全角の表現の統一など,簡単なデータ加工で対応可能なものがほとんどであった.一方,外国の人名に関わる表記ミスは多岐に渡っており,姓と名だけでなく,ミドルネームが存在するなど,日本人にとっての人名と異なり,外国人の人名に対する知識不足に起因するものと考えられる.英語表記を適切に扱えていない代表的な事例として,姓と名の順が統一されていないデータが挙げられる.これに対しては,一方の英語表記を単語レベルに分割し,単語の組み合わせの全てのパターンを作成し,これともう一方の英語表記と比較することで,同一の表記となるかを判定している.また,紙に基づくデータ入力が主体となっていることから,アポストロフィーを利用すべきところ,引用符やプライムを入力するなど,適切に記号を取り扱えていない事例も多く見られる.こちらについては,文字を適切なものに置換することで対応している.同様に,入力欄が限られることから,構成員自身が,名前の一部を省略して記入する事例もあり,英語表記の一部しかデータとしてない場合もあり,この表記を含むようなものを同一のデータとして扱うこととしている.計算機上での文字表現の複雑さに起因するものとして,代表的な事例は,旧字と新字の表記の混在が挙げられる.この場合には,文字を置き換えた漢字表記での比較で対応できる.情報システムは同じものが利用されるものではなく,数年毎に置き換わるものであり,個々のシステム毎で人名の管理も異なる.これに起因するものとして,従来の文字コードに含まれない独自の外字が含まれる漢字表記が挙げられる.元々の漢字の情報がないことから,カナ表記から基の漢字を推測し,その表記から人名の比較を実施している.また,システム移行時に,欠落した文字が意味のない文字として置き換わっているなどのケースも見られ,こちらも同様の対応を実施している.個人を識別することの手がかりとして,名寄せ作業に際し,欠かせない情報として生年月日が挙げられる.しかしながら,個人情報のリスクに対する過剰な反応から,一部の構成員についての生年月日が欠けており,適切に名寄せができないデータも存在する.このように,様々な施策を実施しているが,特に,外国人に対する人名に多様さには十分に対応できておらず,引き続き,名寄せ作業の精度向上に取り組む.
これらの名寄せ作業を含む,一連のデータ分析作業においては,膨大なデータに対する様々な手続きが要するため,ワークステーションレベルの計算機を利用したとしても,現実的な時間でのデータ処理が困難であった.計算機一台あたりの計算能力には限りがあることから,昨今のビックデータ分析に代表される膨大なデータの処理に際しては,Hadoop などの分散処理基盤が利用されてきている.しかしながら,このような計算機基盤は,最低でも数十台の計算機から構成されるものであり,その導入は容易ではない.そこで,使用時間での課金で安価に利用でき,かつ柔軟な構成が可能なクラウド基盤を導入について検討をすすめてきた.また,仮想計算機を中心とした計算機基盤ではなく,サーバレスアーキテクチャを採用することで,データベースの構築,ソフトウェアの更新,セキュリティ対応など,様々な計算機管理に関わるコストを削減し,データ分析に注力できる体制を整える.データ分析に多くの工程を要し,それらは,(1) データ抽出,(2) データ加工の二つの処理に分類される.データ抽出は,関連する業務システムから得られるデータや個々のファイルに含まれるデータを,データ分析に利用できる形として抽出する処理である.このデータ抽出については,Amazon Athena を利用している.Amazon Athena は,サーバレスのクエリサービスで,データベースを介さず,CSVファイルなどのデータファイルに対しクエリを実行できる.このクエリサービスは,分散データウェアハウスである Apache Hive を基にしており,数ギガのデータに対するクエリに対し,10秒以下で実行結果を導出できる性能を備えている.本学では,各種業務システムからのデータや各部局で管理されているファイルを,ストレージサービス S3 上に配置し,これらに対し,必要なデータを抽出している.このように,Athena は S3に配置したデータを一旦移動させるオーバーヘッドを伴うため,多数のクエリの扱いには向いていない.そのため,多数のクエリを要するデータに対しては,データベースサービスである Amazon Redshift を利用するなど,状況に応じてサービスを使い分けている.一方,データ加工は,データ抽出により得られたデータに対し,名寄せ作業,データ統合,統計処理など,データ分析だけでなく,それに必要な様々な処理を施す.この計算基盤として,Amazon Lambda と Amazon Glue を利用している.各種業務システムからアップロードされたファイル名の変換や,氏名や日付の表記の正規化など個々のデータに対する簡単なデータ加工については,小規模なプログラムを実行するコンピューティングサービスである Amazon Lambda を利用している.一方,異なるデータの統合や統計処理などの比較的大規模なデータ加工については,Amazon Glue を利用している.Amazon Glue は,Amazon Spark は複数の計算機から構成されたクラスタ上で,データを同時並列的に処理する基盤である.これにより,名寄せ作業など,従来では数時間要していた処理を大幅に削減することができた.また,この Amazon Athena, Amazon Lambda, Amazon Glue の利用に際しては,データ操作毎に,読み込み可能なファイルを制限するとともに,出力結果を特定の場所に制限するなど,データを中心としたアーキテクチャとすることで,ストレージに保持されるデータに対する各種操作を一元的に監視することで,データ分析に関わる各種手続きが適切さを精査可能な基盤を構築した.
大学における様々な事務手続きは,クラウド環境に利用を想定しておらず,実際の導入に際しては,関係部門からの理解及び許可を得るために,多大な時間を要した.まず,クラウド環境の導入を検討していた時期に,本学において個人情報の漏洩が確認されたことから,セキュリティに関わる管理体制が強まり,情報部門の一部からクラウドへデータを置くことについて懸念が表明された.そのため,AWSの管理体制についての詳細な資料が求められ,導入手続きに大幅な遅延が生じた.日本の法人契約においては請求書払いが一般的であるが,AWSの利用はクレジットカードでの支払いが一般的であり,日本においてAWSを利用する際には,AWSとの直接契約ではなく,代理店を介することで,請求書払いの手続きとし,AWS を利用する事例が多い.AWSの直接契約においては,日本準拠法に従う形で利用できるが,代理店の介しての契約に際しては,準拠法の明記が存在せず,情報部門の判断により,クラウド利用に際してのリスクが明確になっていないと判断され,代理店を介してのAWSの利用を差し止められた.そのため,AWSとの契約に際しては,直接契約とし,室員個人のクレジットカードにより立て替え払いとなっており,必ずしも好ましい運用体制とはなっていない.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

廣森 聡仁, 河野 麻里, 藤井 翔太, 和嶋 雄一郎,「学術論文データベースを中心とした総合的な研究活動及び教育活動の分析」,H.29年度 共同利用 重点型研究「学術文献データ分析の新たな統計科学的アプローチ」キックオフ, 2017.
廣森 聡仁, 河野 麻里, 藤井 翔太, 和嶋 雄一郎,「学内外の様々なデータベースと学術論文データベースを組み合わせた総合的な研究活動及び教育活動の分析」,H.29年度 共同利用 重点型研究「学術文献データ分析の新たな統計科学的アプローチ」成果報告会 vol.2, 2018.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

該当なし

 

研究参加者一覧

氏名

所属機関

河野 麻里

大阪大学

藤井 翔太

大阪大学

和嶋 雄一郎

大阪大学