研究室訪問

統計科学の手法を使い映像検索技術を研究

 「人間にできることはやりたくない。人間にできないことをやりたい。たとえば大規模データの処理などを。」 今年4月、統計数理研究所初の女性教授となった松井さんは、「統計科学を、いろいろなアプリケーション分野に適用させ、豊かな情報知識社会の実現に貢献したい」と、日夜、実践的な研究に励んでいる。

6つの画像特徴からカットの変化をつかむ

 東工大大学院で情報科学を学んでいた時、文章解析マシンをつくり、主語、述語、目的語などが自動的に判定されて出てくることに感激、以来、この世界にのめり込んだという。

 NTT ヒューマンインターフェース研究所などを経て統計数理研究所には平成15年に入り、映像検索、音声・話者認識、多クラス判別のための学習機械の研究などを行っている。

顔写真

松井 知子
モデリング研究系・
知的情報モデリンググループ教授

 研究開発した技術の一般的かつ世界的な評価を受けるため、2006、2007年度(平成18、19年度)に米国基準・科学技術協会(National Institute of Standard and Technology)が主催する、映像情報検索技術を競う国際競争型プロジェクトTRECVID(TREC Video Retrieval Evaluation)に参加した。ABC、CNNなどのテレビニュース映像数百時間分が主催者から提供され、「その中にどんな映像が含まれているか」「画面が切り替わるところはどこか」などと複数の課題が設定されて、それぞれの自動検出技術を競うもので、世界各国の大学、研究機関など約50のチームが参加している。

 2006年度は、ニュース映像の中の一つの同じ場面(ワンカットまたはワンショットと言われる)が急に変わったところを検索する「瞬時カット境界検出」という課題について、KDDI、徳島大学、国立情報学研究所と一緒に国内4研究機関で共同参加した。

 ピクセルの濃淡、エッジやカラーの情報など異なる6つの画像特徴を利用し、統計科学の方法であるマルチカーネルを使い、画像特徴のいくつかを効率的に組み合わせて分析することによって、カット境界検出の性能を高めることに成功した。ニュース映像をカーネルマシンに入れると、出てくる時は、カットが変わっている瞬間の境界を見事にとらえた。

人間にできることはやりたくない。人間にできないことをやりたい。

統計科学の方法を駆使し世界4位に

 2007年度は、映像データの中に戦車、砂漠、爆発、人間、スタジオが含まれているかどうかを自動的に調べ、その映像にラベルを付ける「高レベル特徴検出」という課題について、国立情報学研究所と統計数理研究所の2機関で共同参加した。

 戦車を検出する時は戦車の、砂漠を検出する時は砂漠の、検出対象ごとに個別のマシンSVM(Support Vector Machine)を用意して、検出精度を競った。

 TRECVID の最終的な目標は、世界中に膨大な量で流れているテレビやインターネットの映像の中に何が写っているかを自動的に判定し、その情報をユーザーに提供する技術を世界標準型で開発することである。2006、2007年度で取り組んだ課題は、その前段階のものと言える。

 国内4 機関による2006年度研究では、松井さんらが提案した統計科学の方法を駆使したこともあって、いい結果が得られ、世界第4位となった。

 「もともと私は工学屋でしたが、今は、アプリケーション系と統計科学系が融合する研究をしています。統計科学というのは威力ある方法で、いろんな方面で世の中の役に立つことを多くの方々に知っていただきたい。バレーボールなどのスポーツも今や情報戦で、相手チームの戦力分析に統計科学が使われています。」

 松井さんは、統計科学が日常的な人間活動へ貢献できることを期待して研究をしている。 

1つのマシンで影像の多重検索を

 現在、ここ2年間の経験を踏まえ、1つの画像に写っている1つのものだけを検索するのではなく、2つのもの、3つのものも同時に自動検索することができる「多重ラベル出力」について研究を続けている。1つのマシンで、いくつもの被写体(写っているもの)を検索するもので、TRECVID の最終目標に一歩、近づくものである。

 「映像データを使って、どういう画像が映っているかを判定する技術はまだ確立されていない。統計科学の技術を使って、大量のデータに振り回されないで、何とか人々に有効な映像検索技術をつくりたい。技術評価においても客観的なもの、汎用的なものとしたい。」

 松井さんは、書道、茶道という極めて日本的な趣味でリフレッシュをしながら、世界最先端の技術開発、研究に取り組んでいる。(企画/広報室) 

図1 カット点検出タスク(作成:松井 知子)

図2 高次特徴(“爆発”、“砂漠”、“水辺”など)抽出タスク(作成:松井 知子)

図3 SVMのマルチカーネル化(作成:松井 知子)

ページトップへ