平成81996)年度 共同研究A実施報告書

 

課題番号

8−共研−108

専門分類

8

研究課題名

現代日本文の統計的研究

フリガナ

代表者氏名

ジン ミンズオ

Jin Ming-Zhe

ローマ字

所属機関

札幌学院大学

所属部局

社会情報学部

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

2 人

 

 

 

研究目的と成果(経過)の概要

文章の著者の推定・判別に対して、文章から著者の文体的特徴を抽出し、その統計分析によって問題を解決する研究が注目されている。しかし、日本語に関しては、文章に関するどのような要素に著者の特徴が現れ、そのデータをどのような方法で処理すべきであるかに関する基礎的な研究はほとんど状況である。本研究では、文章から著者の特徴を表すデータの抽出方法及びそのデータの処理方法について基礎的研究を行う。


本年度は助詞に注目し計量分析を行い、助詞の分布には著者の特徴がわりに明らかに現れることを明らかにした。助詞は文章の中でもっとも出現頻度が高い品詞である。
したがって、わりに短い文章の場合でも品詞の分布を用いて書き手の推定や識別などを行うことが可能である。
本研究では、文学作品はもちろんのこと、約400〜1000文字の日記について、約95%の正確率で書き手を識別することが可能である結果を得た。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

金明哲(1997/3).助詞分布に基づいた日記の書き手の認識、計量国語学、第20巻8号、p.357-367.

金明哲(1997/3).助詞分布に基づいた日記の書き手の認識、「人文学とコンピュータ」シンポジウム.
金明哲(1996/9).助詞分布に基づいた文章の著者の認識、「行動計量学会全国大会」.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

貴研究所の村上征勝教授は十数年前からコンピュータを用いた文章(文献)の計量分析を始め、今日まで日蓮遺文、源氏物語の全文データベースを作成し計量分析を行っている。このようなコンピュータを用いた本格的な文章の計量分析に関する研究は、村上教授の研究以外には例がない。現代文と古文とは著者の特徴を表す要素が異なると考えられるが、データベースの作成およびデータの検索の方法などについてはノーハウを借りることによって回り道を最小限にすることが可能である。したがって、共同研究を申請する。本研究では、既に作成した現代作家の文章のデータベース(品詞などの情報も含む)を拡張しながら、著者の特徴に関するデータの抽出方法及びそのデータを用いた著者の推定・判別方法をについて研究を行う。


 

研究参加者一覧

氏名

所属機関

村上 征勝

統計数理研究所