第48巻2第号271-287(2000)  特集「“ことば”新研究」 [総合報告]

自然言語における統計手法を用いた情報処理

札幌学院大学 金 明哲

要旨

近年,コンピュータが日本語を自由自在に扱えるようになったことと,機械的に言語処理を行う必要性が高まったことから,言語に関する研究が注目されつつある.特に,最近は言語データをもとにしたデータ主導型アプローチの研究が盛んに行われており,統計的手法による音声認識,音声合成,スペルチェック,形態素解析,機械翻訳,文の生成,テキストデータにおける情報検索及び情報の抽出,文書の自動分類,文章の書き手の推定・判別など列挙できない程の研究事例が報告されている.本稿では,確率モデルによる自然言語の処理と統計手法によるテキスト処理・解析に関する内容を中心として,その研究事例を紹介しながら,統計手法を用いた自然言語処理に関する研究の現状について述べる.

キーワード:統計的手法,自然言語処理,テキスト処理.


第48巻第2号289-310(2000)  特集「“ことば”新研究」 [原著論文]

和歌データからの類似歌発見

九州大学 竹田正幸
福岡女学院大学 福田智子
純真女子短期大学 南里一郎
九州大学 山崎真由美・玉利公一

要旨

大量の古典和歌の集積から類似歌を抽出するための方法として,和歌間の類似性指標を定義し,その指標の値の大きい和歌の対を人手により検証する,といった方式が考えられる.このような方式においては,成功の鍵は,いかに類似性指標を定義するかにかかっている.しかし,多様な類似性を考慮すれば,有効な類似性指標が唯一つに定まるとは考えにくい.むしろ,研究者の視点に応じて指標を自由に変更し,その都度,類似度の値の高い対を確認していく,というシナリオが有効であろう.

本稿では,まず,類似性指標を自由に設計するための共通の土俵となる統一的枠組みを導入する.この枠組みでは,指標を,パターン集合とパターンにスコアを与える関数との対によって表し,二つの文字列間の類似度を,その共通パターンの最大スコアとして定義する.文字列間の類似性が共通パターンの形で陽に与えられるため,類似性を直感的に捉えやすい.次に,この枠組みのもとで,本歌取りの半自動抽出に適した三つの類似性指標を設計し,これを用いて『古今集』と『新古今集』の間の200万余りの組合せについて類似度を算出した.その結果,(1)類似度の高い対の多くは,実際に本歌取りであること,(2)これまでに指摘のなかった本歌取りの例を,類似度の高いものとして拾うことができること,(3)本歌取り以外にも,ある特定の詠歌状況下で用いられる表現や,伝来の過程で表現のバリエーションが生じた異伝歌,掛詞などの表現技巧が共通する歌などが抽出できること,が判明した.特に,共通パターンの生起頻度を考慮した指標では,既知の常套表現をできる限り排除した,より緊密な類似性をもつ歌の対を得ることができた.

キーワード:古典和歌,表現分析,類似性指標,類似歌,機械発見.


第48巻第2号311-326(2000)  特集「“ことば”新研究」 [原著論文]

多変量解析による文章の所属ジャンルの判別
―論理展開を支える接続語句・助詞相当句
を指標として―

慶應義塾大学 村田 年

要旨

専門日本語教育における学習者にとって,論文に代表される論述文の論理構造の理解は不可欠であり,その理解には接続語句・助詞相当句が指標として役立つと考えられる.本論文では,論述文の論理構造を支える接続語句・助詞相当句を抽出する研究の一環として,5ジャンル(経済学教科書,物理学論文,工学論文,文学作品,新聞社説)計290編(14134文)の文章における接続語句・助詞相当句62項目の出現率を調査し,以下の分析を行う.

  1.  5ジャンル計108編(新聞社説は222編から単純無作為抽出による40編)の資料を対象に単変量的解析を行った後,正準判別分析(多変量解析の一手法)を用いて分析を行う.
  2.  1の分析で分離が明確でなかった文学作品と新聞社説の全資料 (総計236編)を対象に1と同様の分析を行う.

上記の結果より,文章の所属ジャンルが,12の語句項目によって,正判別率84%という高率で判別されるとともに,各ジャンルを分離する語句項目ならびに論述的形式を持つ文章に共通する語句項目が選択された.

以上,限定された資料内ではあるが,異なるジャンルの文章を判別するために,(i)接続語句,(ii)助詞相当句が有効な指標であることが明らかとなった.

キーワード:専門日本語教育(JSP), 文章の論理構造,接続語句,助詞相当句,ジャンルの判別分析,出現率.


第48巻第2号327-337(2000)  特集「“ことば”新研究」 [原著論文]

因子分析による共観福音書問題の解析

東京工業大学 三宅真紀
東京工業大学 赤間啓之
立教大学 佐藤 研
東京工業大学 中川正宣

要旨

本研究では,聖書学の分野において,聖書ソフトウェアの開発と合わせて,コーパス言語学的な統計解析を用いた方法論を導入することを目的としている.

そして,統計解析の対象として,新約聖書学において18世紀の終わりごろから議論されてきた「共観福音書問題」に着目する.この問題は,福音書の成立上の相互関係を整合的に説明を試みるものである.

この問題を解決するために提唱された仮説について,計量的に検証するモデルを立てる.そして,共観福音書に出現する単語の頻度数を用いて多変量解析を試み,仮説について検討し,福音書の成立について考察した.

因子分析の結果,想定した「二資料説」,「原マルコ説」のいずれのモデルも当てはまらず,今回の分析結果からは,聖書学で立てられた仮説は否定され,他の成立過程を考える必要が生じた.

また,聖書学において,統計的研究をサポートすることを目的とした解析ソフトウェアの開発について述べる.さらに,本研究で開発したソフトウェアが,聖書学の分野だけに留まらず,様々な分野に応用ができる可能性を持ったものであることを示す.

キーワード:聖書学,福音書,統計解析,計量分析,因子分析,ソフトウェア.


第48巻第2号339-376(2000)  特集「“ことば”新研究」 [研究詳解]

調査における自由回答データの解析
―InfoMinerによる探索的テキスト型データ解析―

統計数理研究所 大隅 昇
ENST(Ecole Nationale Superieure des Telecommunications) Ludovic Lebart

要旨

日本語の電子的処理が可能となったことや,言語情報処理分野の諸研究が進んだことから,テキスト型あるいは文章型データの取得法や解析手法への関心が高まっている.とくに,社会調査や意識調査・態度調査,あるいは市場調査等の各種調査における自由回答・自由記述データの取得方法や取得後の統計的データ解析の具体的な方法論の登場が期待されている.本報告では,初めに,調査分野における筆者等の経験に基づき,自由回答データ取得において見られる諸問題やその取得方法のあり方について述べる.次に,従来の日本語文章・テキストの解析方法の方向とここで主張する統計的データ解析との関係について議論する.また,我々の主張を具現化したテキスト型データ解析システム InfoMiner with WinAiBASE (あるいはInfoMinerと略す)の主な特徴を紹介する.InfoMinerは,日本語処理で必要となる分かち書き処理機能,キーワード抽出機能,それらの編集機能,さらに多次元データ解析機能(対応分析,クラスター化等)を含む独自に開発されたテキスト型データ解析システムである.さらに,データ科学の観点にたった独自の調査計画に基づき実施されたインターネット調査(ここではWeb調査)で取得した自由回答データの分析の一部を紹介することで,InfoMinerやそれに含まれる多次元データ解析手法の利用可能性や適用性への事例とする.

キーワード:自由回答の分析,テキスト型データ解析,InfoMiner,インターネット調査,形態素解析,分かち書き処理,テキスト・マイニング,データ科学.