統計数理研究所
情報・システム研究機構 若手研究者集会
最先端構文解析とその周辺

日時 : 2012年12月19日(水)13:00〜17:30
場所 : 統計数理研究所 大会議室 (2階)
統計的自然言語処理, および画像処理などの関連領域において, 構文解析は最も基礎的で重要な技術です。構文解析は古くから研究されており, 研究は煮詰まったかと思われてきましたが, 最近, 統計的機械翻訳はもとより, 意味処理などの情報抽出タスクにおいても構文情報の利用が進み, その重要性はますます高まっています。
特に, 今年2012年のACLでは, NTTの進藤さんによるTSG(木置換文法)のベイズ学習による 構文解析が教師あり学習による識別モデルを超えて最高性能を出し, ベストペーパー として注目を集めました。 [PDF]
今後の構文解析, および統計的自然言語処理の進展のためには, こうした手法やこれまで の構文解析について平易に紹介し, また形式言語理論の側からも望ましいモデルについて 議論する必要があると感じ, 今回のワークショップを企画しました。
招待講演者には, 以下の4氏にご講演いただく予定です。
  • 宮尾祐介氏 (国立情報学研究所)
  • 進藤裕之氏 (NTT コミュニケーション科学基礎研究所)
  • 吉仲亮氏 (京都大学 情報学研究科)
  • 能地宏氏 (東京大学 情報理工学研究科)
参加は無料で, どなたでも参加できます。 皆様のご参加をお待ちしています。
プログラム
13:00〜13:10
開催趣旨, あいさつ [PDF]
持橋大地  (統計数理研究所)  [ホームページ]
13:10〜14:10
「自然言語処理における構文解析と言語理論の関係」 [PDF]
宮尾祐介  (国立情報学研究所)  [ホームページ]
【アブストラクト】
自然言語テキストの構文解析は、古くから重要な言語処理技術として研究されてきた。一方で、計算機科学や言語学においては文脈自由文法、範疇文法、主辞駆動句構造文法など様々なフレームワークが提案され、これらは自然言語の構文解析でも利用されている。本講演では、これらのフレームワークを簡単に紹介し、自然言語処理の立場から相互の関係や構文解析において果たす役割について議論する。
14:10〜15:10
「統計的手法による文法モデリングと構文解析」 [PDF]
進藤裕之  (NTT コミュニケーション科学基礎研究所)  [ホームページ]
【アブストラクト】
統計的手法に基づく自然言語テキストの構文解析では,文法的枠組みの確率モデル化と文法規則の推論という二つのステップを要することが多い. 本講演では,範疇文法や木接合文法を例にして,木構造の確率モデル化や推論手法,計算機への実装方法について紹介する.さらに,現在の統計的 手法に基づく構文解析器の到達点と問題点について議論する.
15:10〜15:30 休憩
15:30〜16:30
「文脈自由木文法の分布学習」 [PDF]
吉仲 亮  (京都大学 情報学研究科)  [ホームページ]
【アブストラクト】
近年,文法推論(形式文法のアルゴリズム的学習)の分野では,単語列と単語列が出現しうる文脈のあいだの共起関係の分析に基づく,「分布学習」とよばれるアプローチが盛んに研究されており,文脈自由言語に対する効率の良い学習アルゴリズムがいくつも提案されている.本講演では,このアプローチを文脈自由木文法に対して展開する.文脈自由木文法はその名の通り文脈自由文法を木文法へと自然に拡張したものであり,木代入文法や木接合文法のさらなる拡張にあたり,文脈自由文法では記述できない複雑な構造を記述可能な強力なフォーマリズムである.本手法は構文解析木データからの生成モデル文法の学習への応用などが期待される.
16:30〜17:30
「教師なし構文解析の進展」 [PDF]
能地 宏  (東京大学 情報理工学研究科)  [ホームページ]
【アブストラクト】
教師なし構文解析とは、構文情報の付与されていないコーパスのみを用いて、確率モデルに従って構文を推定する問題である。本講演では、主に教師なし係り受け解析を中心に、この分野の進展についてまとめる。言語の持つ構造を教師なしでどの程度まで捉えられるようになっているか、という視点から、近年のブレークスルーである Dependency Model with Valence 及びその拡張と、最新の研究成果について概観する。

開催趣旨

統計的自然言語処理, および同様の離散構造を共有する様々な関連領域(画像処理など) において, 構文解析はこの分野を特徴付ける, 最も基礎的で重要な課題である。
従来, 人手による教師データを用いた識別学習と, CFG(文脈自由文法)やPCFG(確率的 文脈自由文法)などの単純な文法に基づいた構文解析手法はほぼ飽和点に達し, 行き詰ま りを見せている感があったが, 最近になって生成モデルとベイズ統計に基づく構文解析 手法が識別学習を超え, 最高精度に達するなど, 新しい構文解析の手法が大きな展開点 を見せ始めている。
こうした手法は, 教師なし学習を併用することで言語の自然な構造を学習し, また 構文構造にもより複雑な基本要素を採用することによって, 言語の精密な学習を可能に している。
しかしながら, こうした最先端の構文解析はその難しさもあり, 分野内でも広く理解 されているとはいえず, また, 学習に使用する基本的な文法構造にもさらに検討の余地 が残されている。

本研究集会は, こうした状況に鑑み, 最先端の構文解析の風景を自然言語処理および, 関連する多くの聴衆に理解していただき, 問題意識を共有することで, 更なる ブレークスルーを生み出す布石とすることを目的としたい。