第64巻第2号145−160(2016)  特集「統計的言語研究の現在」  [研究詳解]

文に隠れた構文構造を発見する統計モデル

奈良先端科学技術大学院大学 能地 宏

要旨

本稿は,自然言語の文法を単語列から自動で抽出する教師なし構文解析について,過去20年間に渡る研究の進展について紹介を行う.この研究で本質的に重要となるのは,言語の文法に関するバイアス,もしくは知識をどのようにモデルに組み込むか,という点である.本稿ではこの観点から様々な既存のモデルを比較し,どのような知識を仮定することでどの程度の文法が獲得できるようになったのかについてまとめることで,教師なし構文解析が今後向かうべき方向性についての議論の指針としたい.

キーワード:計算言語学,教師なし構文解析.


第64巻第2号161−178(2016)  特集「統計的言語研究の現在」  [研究詳解]

言語変化と系統への統計的アプローチ

京都大学大学院 村脇 有吾

要旨

言語変化や諸言語の系統関係の解明といった歴史言語学の課題は,従来は言語学者が人手により取り組んできたが,21世紀に入る前後から,計算機を用いた統計的手法を適用する事例が増えている.もともと分子生物学分野で開発され,近年言語データに適用されるようになった統計的手法は,年代のような連続値を含んでいたり,不確実性が解候補の組合せ爆発を生むなどの理由から人間が苦手としてきた問題に取り組むことを可能にしつつある.本稿の前半では,特に重要な手法である語彙を手がかりとしたベイズ系統モデルについて,歴史言語学の研究経緯を踏まえつつ,統計的な観点から解説する.ただし,語彙を手がかりとする手法は,インド・ヨーロッパ語族のような既知の語族に対しては一定の成果を上げつつあるが,日本語はモデルを適用する基盤が整っていない.そこで,本稿の後半では,日本語系統論を解決に導く可能性のある手がかりとして言語類型論の特徴に着目する取り組みについて紹介する.

キーワード:言語系統樹,歴史言語学,言語類型論,ベイズ統計.


第64巻第2号179−200(2016)  特集「統計的言語研究の現在」  [原著論文]

条件付き確率場の理論と実践

東北大学大学院 岡崎 直観

要旨

自然言語処理のタスクの多くは,入力から出力のラベルを予測する問題として定式化できる.言語は構造を持つと考えられるので,入力や出力に単語列や木などの構造を持たせることで,さらに多くのタスクが予測問題として定式化できる.本稿では,系列ラベリング問題,すなわち入力と出力が系列データの場合の条件付き確率場を解説する.条件付き確率場は,多クラスロジスティック回帰を系列データに適用するため,ラベル列のマルコフ性を仮定した素性関数を導入し,動的計画法でラベル列の予測とパラメータの学習を効率化している.そこで,ロジスティック回帰の素性関数,確率的勾配降下法による学習,正則化などの基礎理論を復習し,条件付き確率場の理論全体を説明する.また,能動学習,部分的に正解が付与された訓練データからの学習,深層ニューラルネットワークの適用など,条件付き確率場の最近の研究動向や実践について概観する.

キーワード:条件付き確率場,ロジスティック回帰,確率的勾配降下法.


第64巻第2号201−231(2016)  特集「統計的言語研究の現在」  [原著論文]

言語理解研究における眼球運動データ及び読み時間データの統計分析

成城大学 新井 学
東京大学大学院 Douglas Roland

要旨

言語理解に関する実験的研究は科学技術の進歩と共に過去30年ほどで飛躍的に前進した.以前には導入の困難だった眼球運動測定機もその低価格化と共に広く普及し,現在では世界の多くの研究室で眼球運動測定研究が行われている.しかし,このように量的データの収集が容易になった一方で,このような研究で得られるデータの量は機器の性能向上と共に増大しており,その分析方法は統計解析理論の前進,および様々な分析ツールの開発により複雑化している.そこで本稿では,言語理解研究における眼球運動測定実験,中でも視覚世界実験と読み実験によるデータ,そして自己ペース読み課題を用いた読み時間のデータに対して,現在広く利用されていて,かつ特別なリソースを必要としない分析方法を解説する.主に線形混合モデル及び一般化線形混合モデルを用いたデータ解析手法を中心に紹介し,これらのモデルを慎重に且つ論理的な手順をもって適用することは今までのデータの集約を必要とした分散分析などの手法と比べて多くの利点があることを説明する.

キーワード:線形混合モデル,一般化線形混合モデル,眼球運動,視覚世界パラダイム,自己ペース読み課題,読み時間.


第64巻第2号233−246(2016)  特集「統計的言語研究の現在」  [研究ノート]

ツイート数と現実の統計量との差異に関する検討

奈良先端科学技術大学院大学 荒牧 英治
奈良先端科学技術大学院大学 若宮 翔子

要旨

ソーシャルメディアサービスの普及により,人々や社会の状況を調査する新たなアプローチが開拓された.この結果,インフルエンザや地震などを対象とした多くのサーベイランスや監視システムが提案され,現在も稼働している.しかし,ソーシャルメディア上のユーザ発信データ(発言内容,時間や場所)が必ずしも現実を正確に反映しているとは限らない.例えば,デマや流言などが出現することもあり,新聞などの既存のメディアと比べて,内容の信頼性は十分ではなく,時間的または空間的な正確性にも限界がある.本稿では,ソーシャルメディアを代表するTwitter を用いて構築したインフルエンザ・サーベイランス・システムを例に,ツイート数と現実の統計量の時間的なずれと空間的なずれについて検討し,背後にあるバイアスについて議論する.

キーワード:ソーシャルメディア,Twitter,自然言語処理,ソーシャル・コンピューティング,インフルエンザ.