平成282016)年度 一般研究2実施報告書

 

課題番号

28−共研−2055

分野分類

統計数理研究所内分野分類

g

主要研究分野分類

6

研究課題名

マルチモーダルコーパスを用いたパブリックスピーチの動作・音声・発話内容の統計的解析

フリガナ

代表者氏名

フユノ ミハル

冬野 美晴

ローマ字

Fuyuno Miharu

所属機関

九州大学

所属部局

芸術工学研究院

職  名

助教

配分経費

研究費

40千円

旅 費

107千円

研究参加者数

4 人

 

 

研究目的と成果(経過)の概要

1. 背景
 近年、経済及び人材の流動性がかつてないほど高まっており、世界で活躍できる人材を養成することが産学官で急務である(cf. 日本経団連, 2011; 寺内 他, 2010)。多様な文化的背景や価値観を持つ人々を相手に自分の考えを効果的に伝え、確実に意思疎通を行い信頼を得ることが出来るスキルが求められている中、特に日本人に関して一般的な外国語会話能力等のみならず英語スピーチやプレゼンテーション等のパブリックスピーキング能力の改善が必要とされていることがわかっている(冬野, 2015; Fuyuno et al., 2014)。
 パブリックスピーキングは代表的な説得コミュニケーション手法の一つであり、その効果や国際的な重要性がさまざまな学術分野で指摘されてきた。しかし、パブリックスピーキングは心理学分野における社会不安の代表例としても知られ、適切な教育なくしては効果的に実施することは難しい。それにも関わらず、パブリックスピーキング教育に関しては指導法開発者の主観的経験に基づく指導法・教材等が多く、音声・映像・ストレス値のデータ等を定量的に分析した科学的成果に基づく指導法開発は世界的に見ても未だ希少である。

2.申請者らによるこれまでの研究成果
 そこで申請者らは、さまざまな英語母語話者と日本人英語学習者を対象に、映像・音声・テキスト・ストレス計測等から成る英語スピーチのマルチモーダルコーパスを作成し、効果的なパブリックスピーキング指導に役立つ数値指標を抽出し国際誌等に発表してきた(Fuyuno et al., 2014; Yamashita & Fuyuno, 2015)。これまでに180以上のスピーチパフォーマンスデータを蓄積し、優れたスピーチについて特徴的な無音区間の抽出方法と結果の傾向、アイコンタクト動作の2D動作解析、スピーチ話者の心拍変動解析、音声と構文解析の融合等、科学的分析のノウハウと数値指標を蓄積している。
 特に、これまで本研究チームでは、顔特徴点を用いたモーショントラックによる顔向き(アイコンタクト動作)の動作解析、音声ポーズの自動抽出を用いた音声解析および認知意味論の理論を用いたスピーチ構文解析を行っており、効果的なパブリックスピーチを構成する動作・音声・内容上の特徴が明らかになってきている。

3.本研究の目的
 2015年度までの研究では、スピーチの動作・音声・スクリプトの各データについて、各項目の評価情報を基に自己相関分析などの統計分析を行ってきたが、本研究ではこれらの要素を統合的な観点から分析することを目標とする。それにより、どの項目がスピーチパフォーマンスの印象評価に影響をおよぼす割合が高いかを探り、今後の高等教育における実践的なスピーチ指導へ応用する。

4.本研究の成果
 分析に用いるデータとして、2015年に日本の高等学校で開催された英語暗唱大会において、大会参加者9名のパフォーマンスデータを録音・録画した。9名は英語を外国語として学ぶ日本人英語学習者であった。これらのデジタルデータと、暗唱に用いられたスクリプトと、同大会の審査評価スコアを併せてマルチモーダルコーパスを作成した。審査評価スコアは大会の公式な審査員5名によるものであり、審査員は日本人3名・英語母語話者2名により構成された。
パブリックスピーキングの総合評価にどのような要素が影響を及ぼすかについて考察するため、デリバリーに関わる要素の中から音声ポーズパターンの要素2種とアイコンタクト動作パターンの要素2種を説明変数とし、総合評価スコアを被説明変数として重回帰分析を行った。
音声ポーズパターンについて、まず客観的基準に基づいてポーズ位置を抽出するため、各話者の録音データの中から冒頭60秒部分のデータを用いて、音響分析ソフトウェアであるPraatにより音声ポーズを自動抽出した。抽出にあたり、音声ポーズの定義は0.2秒以上の音声ギャップとした。このデータから、各話者の発話区間の平均長を算出した。次に、Chafe (1987; 1994)のIntonation Unit (IU)に基づき音声ポーズに挟まれた発話区間の内容を分析した(Fuyuno et al., 2016)。各話者のIUと発話内容の文法上の節の対応関係を分析し、文法上の節と対応していないIUの割合をIncomplete Unit Ratioとして算出した。
アイコンタクト動作パターンとして、コンピュータ・ビジョンベース(CV-based)のモーショントラッキングを用いて動作パターンが抽出された。抽出された動作トラックから、各話者が1分間あたりに何回顔向きを変えたかの頻度とその際にどの程度角度が変わったかの角度を推定した。これらは、話者が聴衆全体にアイコンタクトを取る際に重要な指標となると考えられ、適正な頻度と角度が両立されなければアイコンタクト動作が不足しているという印象を与えるなど、マイナスの評価につながると考えられる。
以上の4要素を説明変数とし、総合評価スコアを被説明変数として重回帰分析を行った。分析結果から、不適切な位置での音声ポーズ挿入割合を示すIncomplete Unit Ratioが最も寄与率が高いことが明らかになった。説明変数の中では、Incomplete Unit Ratioのみが発話内容の文法構造と関連のある要素であったため、パブリックスピーキングの総合評価にはデリバリー要素が発話内容と関わった場合に印象の差が出る可能性がある。

 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

Fuyuno, M., Yamashita, Y., Saitoh, T., Nakajima, Y.(in print). Semantic Structure, Speech Units and Facial Movements: Multimodal Corpus Analysis of English Public Speaking, EPiC Series in Language and Linguistics, 1, pp.447-.

冬野美晴・山田祐樹 (2016). スピーチ訓練のためのバーチャルオーディエンスの開発と検証. 第23回日本教育メディア学会年次大会. pp.30-31.

Komiya, R., Saitoh, T., Fuyuno, M., Yamashita, Y., Nakajima, Y (2017). Head pose estimation and motion analysis of public speaking videos, International Journal of Software Innovation, 5, 1, pp.57-71.

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

日時:2016年9月19日10:00-12:00. パブリックスピーキングの定量的分析について. 九州大学. 7名.

 

研究参加者一覧

氏名

所属機関

中島 祥好

九州大学

山下 友子

九州大学