平成71995)年度 共同研究A実施報告書

 

課題番号

7−共研−98

専門分類

8

研究課題名

現代日本文の統計的研究

フリガナ

代表者氏名

ジン ミンズオ

Jin Ming-Zhe

ローマ字

所属機関

札幌学院大学

所属部局

社会情報学部

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

2 人

 

 

 

研究目的と成果(経過)の概要

日本文(書き言葉)の機械処理では,日本文において,どのような情報が書き手によって変化し,どのような情報は書き手と関係なく安定しているかに関する情報は不可欠である。本研究では,機械的な構文解析・翻訳・文の生成・文章のパターン認識などの研究に必要な情報の統計的特性を明らかにする。


本年度の現代日本文に関する統計的研究を下記の三つの部分に分けてまとめる。
(1) 現代文データベースの拡張
  三島由紀夫の「潮騒」の品詞コード付けを完成した(総単語数 39385 語)。
(2) 拡張されたデータベースを用いて動詞の長さの分布に現れる著者の特徴について再分析を行なった。
(3) 助詞の使用法について統計分析を行い、現代文の場合は助詞の分布に著者の特徴が明確に現れることが分かった。


 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

(1)金 明哲: 小説文における文節の係り受け距離の分布の統計的特徴,計量国語学,第20巻4号,pp.168-179(1996,3).
(2)金 明哲: 文節の係り受け距離の統計分析,社会情報,Vol.5, NO.2, pp. 1-12(1996,3).
(3)金 明哲: 日本語における単語の長さの分布と文章の著者,社会情報Vol.5, No.2, pp.13-22(1996,3)
(4)金 明哲: 「読点」で作家が分かる,毎日新聞,1996年1月18日(夕刊).

(1)金 明哲: 読点から現代作家のクセを検討する,統計数理研究所公開講演(1995,11,1).
(2)金 明哲: 読点の分布に基づいた文章の著者の認識(1),合同シンポジウム「人文科学における数量的分析」(1996,3,12).

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

本研究は,品詞・文節接続関係などの情報が付加されている現代日本文データベースが必要である。村上教授と共同で作成した機械可読な3人の日本現代文データベースはあるが,その中の一人の作品は4編しかないため,ある情報については十分に安定した情報が得られない。したがって,データベースの量を徐々に増やす必要がある。今年度は上述の4編しかない作家の作品をさらに4〜5編入力し(品詞コード,文節の接続関係を含む),すでに作成されたデータベースと統合し,文節の係り受けに関する情報について統計分析を行う。


 

研究参加者一覧

氏名

所属機関

村上 征勝

統計数理研究所