平成202008)年度 一般研究2実施報告書

 

課題番号

20−共研−2024

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

言語単位の確率分布とその統計解析手法についての研究

フリガナ

代表者氏名

イシダ モトヒロ

石田 基広

ローマ字

Motohiro ISHIDA

所属機関

徳島大学

所属部局

総合科学部人間社会学科

職  名

准教授

配分経費

研究費

40千円

旅 費

84千円

研究参加者数

4 人

 

 

研究目的と成果(経過)の概要

自然言語の単位(文,語,音節など)の分布に規則性が存在することは古くから指摘されてきた。本研究では、文とその構成要素(語,形態素,文字)の間の関係についてAltmannの提案したモデルの妥当性を、先行研究の少ない英語と日本語テキストを対象に検証を試みた。
方法としてはテキスト・データベースを準備し、各種テキスト集合の解析を行った。対象テキストをひとつひとつ解析していては効率が悪いので、本研究遂行のためのソフトウェアを独自に開発した。これはフリーの解析環境として世界的に普及の進んでいる R のアドインパッケージとして開発している。このソフトウェは下記のURLで一般に公開した。
作成されたソフトウェアを通して、テキストデータの試行的な解析を進めた。目的は、抽出された統計量の確率分布が、過去に欧米や日本で提案されてきた分布に適合するかを検証することである。
その結果、対数正規分布などの適合度はきわめて悪く、さらに単純なポアソン分布や負の二項分布では、テキスト・データの頻度情報を正しくシミュレーションできないことが明らかになった。
また日本語と欧米語では、言語構造が異なるため、何を単位にとるかという問題があるが、過去においては主に理論的、あるいは演繹的な仮定が立てられ、それに基づいた分析が行われてきた。
これに対して本研究では、逆に、単位ごとの確率分布を比較することで、日本語と欧米語の単位の類似性を明らかにしようとしている。この作業は進行中であるが、欧米語で提唱されている節を単位とした頻度情報は、日本語テキストには不適切なことが明らかになった。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

1) 石田 和枝、石田 基広: Text Mining in R : Rober Parker's Comments on Bordeaux Red Wine、Proceedings of Joint Meeting of 4th World Conference of International Association of Statistical Computing、 664 − 670、2008年。

2) 石田 基広:『R によるテキストマイニング入門』 森北出版、全178ページ、2008年。

3) http://groups.google.co.jp/group/rmecab

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

テーマ:テキスト解析の現状と問題点
2009年1月20日
統計数理研究所第2セミナー室
4名参加

 

研究参加者一覧

氏名

所属機関

石田 和枝

徳島大学

小林 雄一郎

法政大学

中野 純司

統計数理研究所