平成212009)年度 重点型研究実施報告書

 

課題番号

21−共研−4303

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

ESPコーパスからの特徴表現の抽出

重点テーマ

言語と統計

フリガナ

代表者氏名

コヤマ ユキエ

小山 由紀江

ローマ字

Koyama Yukie

所属機関

名古屋工業大学大学院

所属部局

工学研究科

職  名

教授

配分経費

研究費

0千円

旅 費

0千円

研究参加者数

6 人

 

研究目的と成果(経過)の概要

本研究は、一般科学雑誌および専門誌論文から構成される科学技術英語コーパスを対象として、工学部の学部学生に必要な特徴的英語表現を抽出することを目的としたものである。
石川は、媒体、トピック、書き手・話し手の属性、フォーマリティなど、様々な要因によって生じるとされる言語変種のうち、テキスト・タイプとトピックの2つの要因を取り上げ、テキスト・タイプによる言語特徴の抽出を試み、また先行研究の結果を検証した。
小山と田中は、(田中,小山 : 2009)をベースとしているが、より洗練された手法を用いて、それぞれ、一般科学雑誌Nature と情報科学系の学術雑誌のコーパスから特徴表現を抽出した。その提案手法は、構文情報を活用し、特徴表現の抽出単位を文法役割とすることでその使用状況を明確化し、併せて文法的抽出条件を課すことで冗長・不自然な表現の抽出を抑制するものである。Nature、 情報系学術誌それぞれの実験の抽出結果を見ると、提案手法は従来手法に比してより自然なかつ実用的な特徴表現を効率的に抽出できることが確認された。
 宮崎は、科学技術コーパス分析の応用として非英語話者が英文による技術文書を作成する際に助けになるように試作したWeb上援用ツールを構築した。入力した英文に対し、類似度の高い実際の使用例を技術文献コーパスから抽出して提示するものであるが、類似度を計測する尺度にはコサイン類似度とJaccard係数を採用した。今回構築したツールは、よりふさわしい使用例が上位に来るよう、適宜類義語による置換も行い、検索対象とした。実験では、情報系大学(院)生が作成した英語技術文書の実例に対し、4種類の技術文書コーパスと2種類の尺度の組み合わせで出力を行い、比較を行って有効性を確認した。
中野は、特徴語を抽出する指標のジャンル間での比較を可能にするための正規化手法を提案した。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

論文発表
神谷健一, 田中省作, 北尾謙治: 言語処理技術と教材作成の連携?データベース, ソフトウェアを用いた英語学習教材の自動作成?,自然言語処理, Vol.16, No.2, pp.45-58 (2009.4)
木村 恵, 田中省作, 八島 等, 依田みずき: 言語資源とその処理技術を活用したL2語彙の習得レベル判定, 英語コーパス研究, 第16号, pp.1-14 (2009.6)
小山 由紀江, 水本 篤: 単語連鎖にみる科学技術分野と他分野の英語表現比較, 統計数理研究所共同研究リポート 239, pp. 1-12 (2010.03)
田中 省作, 小山 由紀江: 構文情報を考慮したESPコーパスからの特徴表現の抽出, 統計数理研究所共同研究リポート 239, pp. 13-30 (2010.03)
小山 由紀江, 田中 省作: 科学技術英語の特徴表現:科学専門誌Nature の論文を対象とした分析, 統計数理研究所共同研究リポート 239, pp. 31-42 (2010.03)
多田 一馬, 田中 省作: 類義語を手掛りとした未知語推測ストラテジのための基礎調査, 統計数理研究所共同研究リポート 239, pp. 43-54 (2010.03)
池本 孝徳, 宮崎 佳典, 田中 省作: コーパスを用いた英語技術文書作成補助ツールの試作と評価, 統計数理研究所共同研究リポート 239, pp. 55-71 (2010.03)
宮崎 佳典, 影山 功: 難語率の定義のバリエーションが個人Readability式生成に与える影響, 統計数理研究所共同研究リポート 239, pp. 73-85 (2010.03)
中野智文: 特徴語の統計量指標の正規化, 統計数理研究所共同研究リポート 239, pp. 87-90 (2010.03)
石川有香: 英語教科書に見るレジスタ, 統計数理研究所共同研究リポート 239, pp. 91-100 (2010.03)
学会発表
田中省作: 分割表に対する近似検定としてのχ2検定, 第33回英語コーパス学会ワークショップ (2009.4)
田中省作, 小山由紀江: 日本の英語教科書コーパスを基準としたESP特徴表現の抽出, 外国語教育メディア学会(LET)第50回全国研究大会,(2009.08)
田中省作, 小山由紀江: 専門分野における英語特徴表現の抽出と教育への応用,情報教育研究集会, (2009.11)
Kitao, K. and Tanaka, S.: Authorized Junior High School English Textbooks in Japan: A Corpus-Based Study of Vocabulary Level and Readability, EuroCALL2009 (2009.9)
田中省作: 習得度測定のための回答時間の基礎的調査 -正答受験者の回答時間分布の特性-, 日本教育工学会第25回全国大会ワークショップ (2009.9)
田中省作, 冨浦洋一, 安東奈穂子, 柴田雅博: Webを源とした英語科学論文コーパスの構築 -技術的方法論と法的観点からの検討-, 英語コーパス学会第34回大会 (2009.10)
(また以下に記載の「言語研究と統計2010」においては全員が発表を行った。)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

「言語研究と統計2010」(統計数理研究所合同研究発表会)
日時:2010年3月27日(土)〜28日(日)
会場:大妻女子大学 千代田キャンパス A棟366教室
参加者:56名
本研究グループ発表題目
石川有香(名古屋工業大学)「レジスター特性の抽出」
小山由紀江(名古屋工業大学)「科学技術英語の特徴表現:Nature を対象とした分析」
田中省作(立命館大学)「構文情報を考慮した ESP コーパスからの特徴表現の抽出」
宮崎佳典(静岡大学)「コーパスを用いた英語技術文書作成補助ツールの試作と評価」
中野智文(NTTレゾナント)「特徴語の統計量指標の正規化」

 

研究参加者一覧

氏名

所属機関

石川 有香

名古屋工業大学

田中 省作

立命館大学

中野 智文

エヌ・ティ・ティ レゾナント株式会社

前田 忠彦

統計数理研究所

宮崎 佳典

静岡大学