平成182006)年度 若手短期集中型研究実施報告書

 

課題番号

18−共研−5004

専門分類

8

研究課題名

日英語の基本語抽出における統計手法の研究

フリガナ

代表者氏名

イシカワ シンイチロウ

石川 慎一郎

ローマ字

Shin’ichiro ISHIAKWA

所属機関

神戸大学

所属部局

国際コミュニケーションセンター/総合人間科学研究科

職  名

助教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

50千円

旅 費

160千円

研究参加者数

4 人

 

 

 

研究目的と成果(経過)の概要

■研究目的
言語教育において,語彙の指導は重要な根幹をなし,日本語・英語共に,基本語彙の抽出はきわめて教育的必然性の高い作業である。基本語彙の決定に当たっては,一定量の言語コーパスにおける個々の語の頻度を算出することが一般に行われるが,しばしば指摘されるように,頻度は十全な指標ではない。
いかなるコーパスもそれ自体で完全な代表性を備えているわけではない。ゆえに,基本語彙の調査にあたっても,一個のコーパスに全面的に準拠するのではなく,様々な特徴を持つ複数のコーパス・データを比較して,総合的に重要な語を絞り込んでゆく処理の手法がとられることが多い。
しかし,異なるサイズのコーパスから得られた各種の頻度データを合成し,客観的指標から基本語を抽出する処理手法についてはいまだ確定されていない。ゆえに,本研究では,実際のコーパス・データを用いながら,語彙頻度データの合理的な合成・縮約の手法について多面的に考察する。

■研究の経過
07月09日 第1回研究会合(大阪):本年度の研究概要と研究分担の確認
07月25日 第2回研究会合(大阪):8月合同研究会の準備
08月07日 第3回研究会合(研究所)(※コーパス言語学系3グループの合同会合)
11月17日 第4回研究会合(大阪):11月研究会の準備
12月05日 第5回研究会合(研究所):各自の研究進捗報告・前田准教授による助言
02月13日 第6回研究会合「英語研究と統計2007」(研究所):合同セミナー
03月15日 共同研究レポート#199刊行

■研究成果
 上記の問題に取り組むため,3名の所外共同研究員は,研究所前田准教授の指導のもと,それぞれの研究を行った。研究代表者である石川は,各種の頻度データを多変量解析の手法で合成する手法を提案した。また,当該テーマからのスピンオフ研究として,多変量解析によってコーパス頻度データを分類する場合に必要なデータサイズについての研究を行った。水本は,クラスター分析の手法で各種の語彙表を整理し,語彙表の特性を明示化する手法について研究を行った。加えて,主成分分析によって合成された頻度に基づくリストと通常のリストとをアンケートの手法で比較した。中尾は,情報量の観点から残差IDFを用いた日本語教科書語彙の頻度分析を行い,基本語抽出のアルゴリズムについて検討を行った。以上の結果は年度末刊行の報告書に,5編の論文としてまとめられた。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

■ウェブサイト: 神戸大学石川研究室ホームページ内 統計プロジェクトページ
http://www11.ocn.ne.jp/~iskwshin/

■研究発表(2月13日:「英語研究と統計2007」発表題目)
石川慎一郎「多変量解析を用いた英語基本語抽出の試み:直観と客観の接点をさぐる」
水本篤「より良い英語語彙学習表の作成を目指して」
中尾桂子「教科書の基本語抽出尺度決定要素:情報検索におけるフィルタリングと抽出法の応用から」
高見敏子(招待発表者)「英語における品詞分布の相関性?LOBコーパスを例に」

■共同研究リポート執筆論文
水本篤 「より良い学習語彙表の開発にむけた統計的手法の検討」 ・・・
水本篤 「主成分分析を用いた学習語彙表の精緻化の試み」 ・・・
石川慎一郎 「多変量解析を用いた英語基本語抽出の試み:主成分分析,因子分析,コレスポンデンス分析の応用可能性」 ・・・
石川慎一郎 「コーパス高頻度語データにおける頻度分布の切断に対する相関行列の頑健性について?多変量解析を用いた言語コーパスのポジショニングを例として ?」
中尾桂子 「外国人児童用日本語基本語彙表選定における重要度決定尺度−残差IDFを利用した自動識別法の検討−」 ・・・
高見敏子「英語におけるPOSタグ分布の相関性?LOBコーパスを例に?」(※外部執筆者)

■そのほかの論文(※共同利用研究の成果を一部含む)
石川慎一郎 「日韓高等学校英語科教科書に見る語彙の諸相:コーパス解析に基づく考察」,Journal of English Education in East Asia (2007)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

研究会名称 統計数理研究所コーパス言語学系共同研究グループ公開セミナー「英語研究と統計2007」
日時 2007年2月13日(火) 10:20 受付開始 〜 18:00
会場 統計数理研究所(地下鉄日比谷線広尾駅下車徒歩5分)
主催 統計数理研究所共同利用研究グループ(代表:石川慎一郎/小山由紀江/田畑智司)
発表件数 12件(共同研究グループメンバー9名+前田准教授+外部発表者1名)
参加者 72名.

 

研究参加者一覧

氏名

所属機関

中尾 桂子

神戸大学

前田 忠彦

統計数理研究所

水本 篤

甲南女子大学