平成182006)年度 一般研究2実施報告書

 

課題番号

18−共研−2052

専門分類

8

研究課題名

レベル別ESPコーパスの特徴語を確定する統計手法

フリガナ

代表者氏名

コヤマ ユキエ

小山 由紀江

ローマ字

KOYAMA Yukie

所属機関

名古屋工業大学

所属部局

情報基盤センター

職  名

教授

所在地

TEL

FAX

E-mail

URL

配分経費

研究費

50千円

旅 費

100千円

研究参加者数

5 人

 

 

 

研究目的と成果(経過)の概要

[目的と概要]
特定ジャンルのコーパスから,英語学習に適切な語彙表を作成する場合,コーパスの特徴語を明らかにするために,一般コーパスと比較を行う必要がある。ところが,こうした比較分析の中で,どのような統計的指標を使用するべきかという問題については,十分な共通理解が得られていない。そこで、本研究の目的は,複数の科学技術英語コーパスの特徴語を特定し,精度の高い語彙表を確定するための,適切な統計的手法を明らかにすることである。
ESPコーパスの特徴語を確定しようとする場合、使用される指標によって,選定される語彙は大きく異なる。先行研究では,対数尤度比の指標としての妥当性がある程度認められているが,これが,初中級者の語彙表作成に適切な特徴語であるかという問題については明確でない。
本研究は,レベル別・目的別に収集された複数の科学技術英語コーパスから,学習者のニーズに合致したコーパスを選定し,英語語彙学習のための語彙表の作成にあたって,それぞれの場合に適切な統計手法を提案しようとするものであるが、中野・小山は共起語を求めるための統計処理に際して最も基本となっている語の頻度に関して、レンマ化の基準を確定する統計手法を実際の分析結果に基づいて提案するものである。また、石川は対数尤度比を用いて異なる科学技術論文コーパスから教育語彙表を選定する手法について研究し、さらにコーパス分析に基づいて作成した教育語彙表の語彙テストの結果から項目困難度を算定し、その語の頻度と比較分析を行った。

[成果]
 本共同利用研究の成果発表のため,平成19年2月、「公開セミナー:英語研究と統計2007」を実施した。本セミナーは石川慎一郎神戸大学助教授が代表を務める「日英語の基本語抽出における統計手法の研究」研究グループ、田畑智司大阪大学大学院助教授が代表を務める「多変量解析を用いたテキスト分析研究」研究グループと合同で行ったもので、前田忠彦統計数理研究所内研究スタッフ及び外部からも一名発表者を加え、統計数理研究所において,広く言語統計に関心のある研究者を集めた。セミナーでは,各グループの共同研究分担者が研究発表を行い,言語統計への多面的なアプローチを展開した。また、研究所前田忠彦助教授の講演も言語統計の方向性に大きな示唆を与えるものであった。聴講参加者は発表者以外約60名となり,大きな反響を呼んだ。
また,上記セミナーのプロシーディングズをかねるものとして,共同研究リポート200号『ESPコーパスの特徴語を確定する統計手法とテスト分析』が刊行された。同レポートは5本の論文を掲載し,全97ページのものとなった。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

●HP: 神戸大学石川研究室ホームページ内 共同利用研究合同セミナー情報公開ページ
http://www11.ocn.ne.jp/~iskwshin/stat2007.html
● 共同研究グループ合同セミナー発表
(2007/2/13 共同利用研究セミナー「英語研究と統計2007」)
石川慎一郎(神戸大)     「多変量解析を用いた英語基本語抽出の試み:直観と客観の接点をさぐる」
水本篤(大阪工大・非常勤)  「より良い英語語彙学習表の作成を目指して」
中尾桂子(神戸大・非常勤)  「教科書の基本語抽出尺度決定要素:情報検索におけるフィルタリングと抽出法の応用から」
中野智文(名古屋工大)    「複数共起の統計指標の提案」
小山由紀江(名古屋工大)   「共起語検出におけるレンマ処理基準」
石川有香(名古屋工大)    「ESP語彙の頻度と学習困難度:語彙テストの統計的解析」
田畑智司(大阪大)      「散文の世紀」の文体:The Century of Prose Corpusにおける
register/chronological variation
後藤一章(大阪大・院)    「統語構造別出現頻度分布に基づく名詞の特徴的共起語クラスの発見」
紙谷 一彦(大阪大・院)    「極大詞の差異について」
石部尚登(大阪大・院)     「ベルギー国王の蘭仏二言語スピーチの分析」
高見敏子(北海道大学)    「英語における品詞分布の相関性?LOBコーパスを例に」
前田忠彦(統計数理研究所) 総括講和 「言語研究における統計の位置づけについて」


●論文(共同研究リポート執筆論文)
石川 有香 名古屋工業大学 助教授 大学生のための基本語語彙の選定-log-likelihood 統計量の利用-
石川 有香 名古屋工業大学 助教授 ESP基本語の頻度と学習困難度-語彙テストの統計的解釈-
中野 智文  名古屋工業大学 助手  分散共起と尤度比検定による尺度の提案
小山 由紀江  名古屋工業大学 教授 共起語検出におけるレンマ処理基準
-二種類の科学技術コーパスを対象として-
前田忠彦 統計数理研究所 助教授 ・岡田謙介 東京大学大学院
因子分析入門-言語テスティング・データのための多変量解析

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

8月7日  共同研究グループ報告会(東京:統計数理研究所)[発表・討議] 参加者
2月13日 「英語研究と統計2007」(東京:統計数理研究所)外部参加者60名・メンバー含め72名 
(共同研究グループ合同開催)

 

研究参加者一覧

氏名

所属機関

石川 有香

名古屋工業大学

清水 裕子

立命館大学

中野 智文

名古屋工業大学

前田 忠彦

統計数理研究所