平成302018)年度 一般研究2実施報告書

 

課題番号

30−共研−2028

分野分類

統計数理研究所内分野分類

d

主要研究分野分類

6

研究課題名

コーパスに基づく用法基盤モデルの実践

フリガナ

代表者氏名

ウエダ マサノブ

植田 正暢

ローマ字

Ueda Masanobu

所属機関

北九州市立大学

所属部局

基盤教育センターひびきの分室

職  名

准教授

配分経費

研究費

40千円

旅 費

302千円

研究参加者数

8 人

 

 

研究目的と成果(経過)の概要

1) 研究目的と成果の概要
 認知言語学・構文理論の枠組みにおいて提唱されている用法基盤モデルに基づき,コーパスを用いた計量的な分析を行った。研究分野は語法・構文研究から,メソドロジーの研究,英語教育への応用的な研究に至るまで多岐にわたるものとなった。具体的な成果あるいは研究の経過は以下のとおりである。

・ジェスチャー分析に基づく英語前置詞の多義性記述の再検討
 英語の前置詞(副詞パーティクルを含む広義の前置詞)の多義構造についてはこれまでに多くの記述が行われてきたが,その客観的妥当性を論じることは容易ではない。しかし,マルチモーダルコーパスを分析し,英語の前置詞に伴うジェスチャーを分析することで,各語義の中心義からの心理的距離感をとらえ,より客観性を高めた前置詞の多義構造記述を行える可能性がある。本研究では,これまでに多くの分析が成されてきたoverに伴うジェスチャーを分析し,ジェスチャーの頻度・分布などを統計的に分析することで前置詞の多義構造記述に有効な示唆が得られるのかどうかを検討し,研究手法の有効性を探ることを目指した。
<TED Corpus Search>
 Engineを対象として,overの使用例300例を確認した結果,ジェスチャーの有無が明確に判断できるもののうち,ジェスチャーを伴うおよその割合は30%であった。他の前置詞についても予備的に調査したところ,under(500例)で5%,out(380例)で15%,back(320例)で30%の使用に対してジェスチャーが伴っていた。この調査により,前置詞によってジェスチャーを伴う割合が大きく異なることが確認できた他,意味の特定やジェスチャーの記述などのデータの記録・分析法についても検討することができた。

・二重目的語構文の典型的な動詞giveと許可・可能を表す動詞群の意味的差違への統計的アプローチ
 統計数理研究所共同利用研究におけるプロジェクトとして2013年度より継続的に許可・可能を表す動詞群(allow, permit, deny, refuse, grant)(以下,許可・可能動詞)の意味的特徴をコーパスに基づき解明してきた。2018年度は許可・可能動詞と二重目的語構文の典型例であるgiveを比較することで,許可・可能動詞の特徴をさらに明らかにしようとした。直接目的語に生じる名詞との共起頻度をもとにした調査の結果,giveと許可・可能動詞はコレスポンデンス分析の結果でも区別されることが明らかになり,さらにgiveは意味的により広い範囲の名詞と共起することが明らかになった。

・日英単語の対応関係の統計的手法による検証
 2言語間比較を行う際,それぞれの言語をコーパスとして言語モデルを作成することを計画としていたが,その際に最適なモデルの設計が必要となる。本年度は英語のモデル構築の基礎研究として,word2vecを用いてsizeおよびwindowパラメーターの変更による影響の調査を行った。2017年度に実施した研究で言語研究のために最適なコーパスサイズは8000万〜1億語程度であることを明らかにしたが,その基準に基づいて言語モデルを構築し,それぞれのパラメーターを変更させながら,高頻度語の類義語の出現関係からクラスター分析によってモデル間の類似度を調査した。その結果,最も標準的なモデルはsize=300~400,widow=5~6で得られることが示唆された。この結果は,日英2言語で単語の距離を測定するための重要な基礎情報となるものである。

・コーパスを用いた談話機能の発達に関する用法基盤的研究
 使用基盤の立場から,COCAやCOHAなどのコーパスを利用して,英語の構文の意味変化とその動機づけについて考察した。具体的には,(a) big timeが名詞>形容詞>強意副詞への変化,及び,having said that とその関連構文の継起性>譲歩>トピックシフト標識への変化のプロセスと動機づけを解明した。

・事態把握と助詞ヲ格,二格の語順
 2018年度の当初の研究テーマは「コーパスを用いた日本語指示詞の分析」であったが,2018年3月に統計数理研究所で行った「言語研究と統計2018」において,2017年度の研究テーマである「事態把握と助詞ヲ格,二格の語順」について研究発表をおこなったところ,多くの有益なコメントを頂いたので,2018年度も引き続き日本語の助詞の研究を続けた。なお,当初予定の研究テーマである日本語指示詞については別の形で研究を進めた。
 2017年度の研究では,動詞によるヲ格とニ格の語順を調査・分析した結果,動詞によりヲ格,二格の好まれる語順に違いがあることがわかった。これを受けて2018年度は動詞を固定して名詞に着目し,それぞれの名詞が先行するか後行するかを調査し,結果にたいし対数尤度比率検定をおこなった。例えば動詞「移す」に名詞「目」が結びつく場合,「目」はヲ格として現れる例がほとんどで,その場合のヲ格は後行する(ニ格+ヲ格の順)ことが分かった。また名詞「実行」が「移す」に結びつく場合,「実行」は調査した例ではすべてニ格として現れる。また,語順としては後行する(ヲ格+ニ格の順)ことが分かった。動詞「移す」はヲ格が先行する割合とニ格が先行する割合が大きく変わらないが,個々の名詞を見ていくとどちらの語順が好まれるかは名詞により異なることが明らかになった。

・統計的手法による直接話法に現れる動詞の分類
 本研究ではコーパスから取得したデータをトークンレベルで意味の差異を調査するToken-level Semantic Vector Space Models (tSVS)の妥当性を検証した。従来の手法では大きく2つの手法によって語彙の意味を調査してきた。1つ目はコロケーションの強度測定である。例えばmouseと強い結びつきを持つ語の中にtransgenicやmonoclonalといった語彙があれば生物としてのネズミを,一方でkeyboardやclickがあればコンピュータの周辺機器を意味していることがわかる。しかしネズミとマウスの両方に用いられうる語彙(e.g. run)が生じた場合,個別の事例を見る必要がある。もう1つの手法として多変量解析によって大量のデータから意味の類似性を探る手法である。しかしこれは語彙の意味を単一化してしまうため語の多義性は捉えられない。これらの問題に対し,tSVSを用いることによって2つの手法の問題点を克服した上で意味の詳細を記述することに成功した。例えばhappyとgladのような類義語において, happyでしか用いることのできない用法(誕生日の歌やhappy anniversaryなど)を抽出することに成功した。また本手法を用いてmouseをcomputerと比較することによってmouseの多義性を的確に捉えることができた。最後に,tSVSはジャンル差の調査にも応用ができることを明らかにした。

・英語の五文型
 本研究は,英語学習者の文型使用パターンから,英語の熟達度を測定できないかという観点から,H30年度は分析対象となるデータの収集を行った。様々な習熟度および属性を持つ英語学習者にイラストを提示し,その描写を英語で行ってもらった。H31年度はそれらのデータの分析を行い,英語の熟達度と文型使用パターンの関係を検討する予定である。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

本研究の成果は以下のレポートおよび論文等において発表している。

統計数理研究所共同研究リポート413『コーパスに基づく用法基盤モデルの実践』2019年3月
・UEDA, Masanobu. Ditransitive Give and Verbs of Permission and Enablement:
Correspondence Analysis of the Co-occurrence Frequency between the Verbs and their Direct Object Nouns.
・内田諭. 単語分散表現におけるパラメーター変化の影響: word2vec を用いた事例研究
・木山直毅.「ベクタースペースモデルと多義性研究-- トークンレベルの意味研究--」

【その他の論文等】
・川瀬義清. 2018. 「コ・ソ・アの用法」大橋浩・川瀬義清・古賀恵介・長加奈子・村尾治彦.(編)『認知言語学研究の広がり』pp. 68-82. 開拓社.
・木山直毅. To appear. 「ツイッターデータに基づく意味研究 --社会言語学的側面から--」米倉よう子(編)『吉村公宏先生退職記念論文集』. 開拓社
・大橋浩. 2018. 「Big time再考」大橋浩・川瀬義清・古賀恵介・長加奈子・村尾治彦.(編)『認知言語学研究の広がり』pp.51-67. 開拓社.
・大橋浩. 2018. 「第6章 文法化はなぜ認知言語学の問題になるのだろうか」高橋英光・森雄一・野村益寛(編)『言語学の本質』pp. 113-131 . くろしお出版.
・植田正暢. 2018. 「2つの目的語の関係--障壁モデルにもとづく二重目的語構文の分析」大橋浩・川瀬義清・古賀恵介・長加奈子・村尾治彦(編)『認知言語学の広がり』pp.18-34,開拓社
・植田正暢,「可能を表す二重目的語構文の意味とその経験的基盤」『日本認知言語学論文集』18, pp. 162-170.

【口頭発表等】
・Ishii, Yasutake. 2019. "Observing Co-textual Figurative Gestures for Better Informed Descriptions of Polysemous English Prepositions." 外国語教育メディア学会関西支部メソドロジー研究部会2018年度第3回研究会. (2019年1月12日, 北海学園大学.)
・Ishii, Yasutake. 2018. "More Objective Descriptions of Semantics of English Prepositions Based on the Observations of Accompanying Gestures." Metaphor Festival 2018. (2018年8月31日, Universiteit van Amsterdam.)
・川瀬義清. 2018. 「動詞と助詞二格とヲ格の語順の分析」 統計数理研究所言語系共同研究グループ夏季研究会. (2018年9月2日. 神戸大学.)
木山 直毅. 2018. 「日本語条件文の構文的類似性」統計数理研究所言語系共同研究グループ夏季研究会. (2018年9月2日. 神戸大学.)
・Ueda, Masanobu, "Frame Semantics and Voice Choice: A Case Study of Passive Ditransitive Constructions with Verbs of Refusal and Allowing" The 10th International Conference on Construction Grammar. (2018年7月16日, Sorbonne Nouvelle University-Paris 3.)
・植田正暢. 2018「二重目的語構文に再帰代名詞が生じる事例について」 統計数理研究所言語系共同研究グループ夏季研究会. (2018年9月2日. 神戸大学.)

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

・統計数理研究所言語系共同研究グループ夏季研究会
日にち:2018年9月1日・2日
場所:神戸大学百年記念館
参加者数:約40名

・統計数理研究所言語系共同研究グループ合同発表会「言語研究と統計2019」
日にち:2019年3月20日・21日
場所:統計数理研究所セミナー室1
指導講話:前田忠彦(統計数理研究所)
参加者数:約80名

 

研究参加者一覧

氏名

所属機関

石井 康毅

成城大学

内田 諭

九州大学大学院

大橋 浩

九州大学

川瀬 義清

西南学院大学

木山 直毅

北九州市立大学

長 加奈子

福岡大学

前田 忠彦

統計数理研究所