平成302018)年度 一般研究1実施報告書

 

課題番号

30−共研−1012

分野分類

統計数理研究所内分野分類

e

主要研究分野分類

7

研究課題名

データリレーション技術による複数データベースの統合と企業データの構造化

フリガナ

代表者氏名

ヤマシタ サトシ

山下 智志

ローマ字

Yamashita Satoshi

所属機関

統計数理研究所

所属部局

データ科学研究系

職  名

教授

 

 

研究目的と成果(経過)の概要

数のデータベースを統合する問題は、「名寄せ」で知られているように古くから存在する。これまではあるフィールド(名前、住所など)の完全マッチによってデータを統合することが一般的であったが、表記の揺れの問題や、子会社などの本質的に複雑な構造持ったデータに対しては対応が難しかった。
ごく近年、傾向スコアを用いたマッチングや、多項ロジットを用いたデータ間の近接度評価、高速アルゴリズムの提案などによって、必ずしも完全マッチでなくとも名寄せをする方法論が提案されてきている。
本研究では、完全マッチから確率マッチへの移行を目的とする。確率マッチの推計方法、確率マッチから名寄せまでのアルゴリズムの提案、確率的にマッチされた統合データの性質と分析方法の開発を行う。 官庁の企業データ、銀行の信用データ、帝国データバンクの企業情報、などの複数の企業データベースを対象にマッチング手法を開発し評価を行う。以下の細分化された課題に挑戦し、全体の目的を達成した。
1.傾向スコアを用いた企業データマッチング実験
2.政府統計の法人データ・事業所データと民間信用データとのマッチング実験
3.多項ロジットによる企業類似性の評価と、それを利用したマッチング
4.確率的にマッチングされたデータベースの性質を整理する。
5.統合データベースを用いたデフォルト確率推計モデルの開発と精度の確認
6.高速アルゴリズムの提案

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

高部 勲 *, 山下 智志, 多項ロジットモデルに基づく企業データの統計的マッチング(理論的側面), 日本分類学
会第37回大会, 東京, 日本, 2018.06.09
山下 智志 *, コンソーシアム活動報告とデータ構造化, 公的ミクロデータ研究コンソーシアムシンポジウム
2018, 東京, 日本, 2018.08.01
高部 勲 *, 山下 智志, 多項ロジットモデルに基づく企業データの統計的マッチング(企業分析), 2018年度
JAFEE夏季大会, 東京, 日本, 2018.08.24
山下 智志 *, 信用リスクの基礎, 応用, 最近の話題, 国際協力銀行 信用リスクセミナー, 東京, 日本, 2018.08.24
高部 勲 *, 山下 智志, ロジットモデルを用いた複数企業データベースの結合方法, 2018年度統計関連学会連合
大会, 東京, 日本, 2018.09.10
岡本 基 *, 山下 智志, 「国際ミクロ統計データベース」のさらなる拡充に向けて, 2018年度統計関連学会連合大
会, 東京, 日本, 2018.09.13
山下 智志 *, AIと機械学習の直感的理解と金融への応用, 日本銀行金融機構局金融高度化センターWS, 東京,
日本, 2018.09.19
山下 智志 *, アパートローンとアパートの収益評価に関する2つの調査とモデリング, 地方銀行協会 信用リス
ク管理研究会, 東京, 日本, 2018.09.21

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

リスク解析戦略研究センターシンポジウム (主催機関:統計数理研究所リスク解析戦略研究センター), 2018.07.17, フ
クラシア丸の内オアゾ
公的統計ミクロデータ研究コンソーシアムシンポジウム2018 (主催機関:公的統計ミクロデータ研究コンソーシアム),
2018.08.01, 学術総合センター
統計関連学会連合大会企画セッション「データリレーション&マッチング:データベース結合の方法と実践」(主
催機関:統計関連学会連合大会), 2018.09.10, 中央大学

 

研究参加者一覧

氏名

所属機関

伊藤 伸介

中央大学

星野 崇宏

慶應義塾大学