平成302018)年度 重点型研究実施報告書

 

課題番号

30−共研−4202

分野分類

統計数理研究所内分野分類

b

主要研究分野分類

7

研究課題名

学術文献DBにおける著者識別の精度向上に関する研究

重点テーマ

IRのための学術文献データ分析と統計的モデル研究の深化

フリガナ

代表者氏名

フジノ トモカズ

藤野 友和

ローマ字

Fujino Tomokazu

所属機関

福岡女子大学

所属部局

国際文理学部

職  名

准教授

配分経費

研究費

40千円

旅 費

269千円

研究参加者数

6 人

 

研究目的と成果(経過)の概要

研究組織の研究力を評価する場合,その組織に所属する研究者の研究業績が基本的なデータとなる.そのデータを収集する方法として,研究者に業績リストの作成を依頼することが考えられるが,作成する研究者ごとにリストの作成基準が異なったり,リストに不備があったりすることが予想される.そこで,学術文献データベースからその組織の研究者の業績を機械的に抽出すると効率がよいと思われる.しかしながら,学術文献データベースに含まれる著者情報には,論文に掲載されている所属情報が紐付けられているのが一般的であり,組織名で検索しただけでは,その組織に所属する以前に執筆した論文がヒットせず,組織に所属する研究者全員の完全な業績リストを作成するのは困難である.そこで,研究者の氏名で検索すると,もれなく業績を収集することはできるが,同姓同名の研究者の業績も検索結果に含まれてしまう.

本研究では,ある組織の研究者リストと各研究者の研究内容に関するテキスト情報に基づいて,とりわけ,Clarivate Analytics社のWeb of Science(WOS)を用いて学術文献データベース内の論文がその組織の著者であるかどうかを識別する手法の開発を目指す.学術文献データベースにおける著者識別問題については,Strotmann, Zhao and Bubela (2009)で議論されている.Tang and Walsh(2010) は,WOSなどの主要な学術文献データベースにおいても,研究者のID付けは完全でなく,完全にある研究者を特定するには至っていないと指摘している.また,桂井,大向,武田(2015)は日本における主要な学術文献データベースであるCiNiiにおいて,この問題を検証している.

これまでの研究において,トピックモデリングによって得られた著者の特徴ベクトルに基づいて,同姓同名で所属が未知の著者による論文が,その組織の著者によって出版されたものであるかどうかを判定する手法を検討してきた.この方法である程度の分類はできるものの,同姓同名で研究領域の近い研究者に関しての識別が困難であることなど,不十分な点も明らかになった.今年度は,論文の引用情報や共著者の情報を用いて,著者識別の精度向上に関する検討を行うことを目的とした.

DMR(Dirichlet Multinomial Regression)は,トピックモデルにおけるトピック分布を生成するディリクレ分布のパラメーターに回帰構造を入れたモデルである.説明変数として,著者の所属や専門分野に関する情報を入れることで,これまで用いていたLDA(Latent Dirichlet Allocation)よりもよい予測性能が得られた.

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

Tomokazu Fujino, Keisuke Honda, Hiroka Hamada(2018) Author Name Identification using Dirichlet-Multinomial Regression topic model 23rd International Conference on Computational Statistics 2018 (COMPSTAT2018)


研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

JSCSスタディーグループ「IR(Institutional Research)のための統計的モデル構築に関する研究」統数研H.30 重点テーマ2合同研究集会

日時:2018年10月06日(土)8:50-18:30
会場: 福岡女子大学 講義棟 C206教室

https://ura3.c.ism.ac.jp/ir-web/reports/2018/20181006.html

参加人数:10名

 

研究参加者一覧

氏名

所属機関

服部 恒太

徳島大学

船山 貴光

東北大学

山本 由和

徳島文理大学

山本 義郎

東海大学