平成242012)年度 一般研究1実施報告書

 

課題番号

24−共研−1010

分野分類

統計数理研究所内分野分類

a

主要研究分野分類

5

研究課題名

ドラム音源データからのグルーブ感の定量的抽出

フリガナ

代表者氏名

トクナガ テルマサ

徳永 旭将

ローマ字

Tokunaga Terumasa

所属機関

明治大学

所属部局

研究知財戦略機構

職  名

研究員

 

 

研究目的と成果(経過)の概要

1. 研究の背景
 デジタル化された音楽コンテンツ配信サービスの普及にともない, 膨大な楽曲がインターネットからダウンロードできるようになった. 例えば, AppleのiTunes in the Cloud/iTunes Matchの場合, カタログ数は1,700万曲以上にのぼるとされている. このように, 手軽に抱負で多様な音楽コンテンツを享受できる環境が整備されつつある昨今, 膨大な配信楽曲群の中から自分の感性と合致する楽曲との出会いを支援するサービスの必要性が増している.
 既存の楽曲検索サービスで用いられる最も基本的な情報は, 楽曲名やアーティスト名, 作曲者名, 演奏時間, 歌詞, ジャンル名などのメタ情報である. 次いでジャンル名, テンポ, キー, コード進行といった, 通常楽譜上に記載されるメタ情報である. このような情報による楽曲検索は, ユーザにとって日頃慣れ親しんでいる分野/ジャンル内のコンテンツを検索する上では有効であるが, 未知の楽曲との出会いを支援することは難しい. 一方で,「明るい曲」「切ない曲」といった, 感性情報に基づく検索サービスが研究されている.しかしながら, 感性情報の定量化は簡単ではないため, それを用いた検索エンジンの実用化はあまり進んでいない.

2. 目的
本研究では, 楽曲のデータから音楽のノリ/グルーヴ感を定量的に抽出し, 分類するための信号処理手法, 機械学習/パターン認識手法を研究開発を行う. それにより, 自分の感性に訴える楽曲との出会いを支援する能動的音楽鑑賞システムの実現に資することを目的とする.
グルーヴ感とは, 機械的で正確無比な演奏にはないロック/ポップス系の音楽独特のニュアンスであり, リスナーに躍動感, 疾走感, 没入感などの情動を想起させるものである. リズムやテンポとも関係する概念であるが, 楽譜上に記載できないという点で, それらとは似て非なる概念である.
グルーヴ感の主要な構成要素は, 演奏される楽器群の発音のタイミング(打点)と音量のゆらぎであると思われる. それらが偶発的に, あるいは一定規則のもとに絡まり合い, 結果的にリスナーに特異な情動を想起させるグルーヴ感が醸成されると考えられる. それらは演奏者の即時的な判断によりコントロールされることが多いため, 楽譜上に記載することが困難であり, 同じ楽曲であっても演奏者が違えばグルーヴ感も異なる. つまり, 世の中には, (楽曲数*演奏者数)のグルーヴ感が存在し得る. グルーヴ感を能動的音楽鑑賞システムに活かすには, 適切な信号処理手法によって音楽コンテンツから直接グルーヴ感を数値として抽出し, それらをリスナーによってリーズナブルな有限数のパターンに分類整備する必要がある.
本研究では, 代表的なリズム楽器であるドラムの演奏を録音したデータから, 定量的にグルーヴ感を抽出する枠組みを検討した. 音源データとして, Apple Inc.の提供するDTMソフトであるGaragebandに収録されている演奏データを用いた.

3. 実施状況
 ドラム音源のグルーヴ感を定量的に抽出/評価するための枠組みとして, 以下のような作業フローを設定した.

Step1 (音源分離); 
 ドラム演奏を録音した音源には, ハイハット, スネア, バスドラなど, 複数のドラムパートの演奏が一次元データに重畳している. 従って, 打点時刻検出の前に, 一次元データをドラムパート毎に要素分解する必要がある. これについては, 近年自動採譜システムに応用されている, NMF(不負値行列因子分解)を用いる. NMFでは, 一次元データに短時間フーリエ変換を施して得られるスペクトログラムを, 基底スペクトルと各基底のアクティベーションに分解する. 短時間フーリエ変換の適切な窓幅を選択することで, アクティベーション行列が極大をとる時刻として, ドラムパート毎の大まかな打点時刻が検出される.

Step2 (ゆらぎ成分の抽出)
 Step1で検出された楽器ごとの打点時刻から, 正確なテンポからのゆらぎ(時間差)を抽出する. そのためには, 正確なテンポを定義する必要がある. 本研究では, 演奏者ではなくユーザに近い立場からグルーヴを評価することを目指しているため, メタ情報としてのテンポを用いるのではなく, 演奏データから正確なリズムを再定義する. このように, 演奏データから推定された仮のテンポを, 渡辺ら[2006]の記述に従い仮想メトロノームと呼ぶこととする. 仮想メトロノームの推定法としては, ハイハットシンバルの打点時刻から最小二乗法で推定する方法などが考えられる.

Step3 (抽出されたグルーヴの分類)
 Step2においてドラム演奏データから抽出されたグルーヴを, 適切な方法を用いて分類する. 分類には, 多クラスSVMのような識別器を用いることが考えられる.
 
4. 得られた成果
 本共同利用期間中に, 統計数理研究所モデリング系の松井知子教授と, 2012年6月15日, 2012年7月18日, 2012年9月15日の計3回にわたり議論を行った. 以下, その主要な成果についてまとめる.

4-1. 仮想メトロノームの推定法について
 仮想メトロノームの推定法は, ドラム演奏のパターンによって適した手法が異なる. 最も簡単なケースは, ハイハットシンバルの打点の間隔が一様なリズムパターンである. この場合は, 前述のように線形最小二乗法により仮想メトロノームを推定することができる. しかしながら, 実際のドラム演奏では, ハイハットシンバルの打点間隔は一様とは限らない. そのような場合には非線形最適化問題を解くことになる. また, リスナーが感じる仮想のテンポは, 必ずしもハイハットシンバルのみから構築されるとは限らない. ハイハットのみではなく, バスドラやスネアなど, 複数のドラム楽器の打点から仮想メトロノームを推定することで, 「タメ」や「走り」といったグルーヴ感を表現できる可能性もある. これら議論に基づき, グルーヴ感を抽出する上で最適な仮想メトロノーム推定法を定式化し, それらの実用性について検討した.

4-2. 抽出したグルーヴの分類法について
 抽出されたグルーヴをどのような観点で分類するかについて議論を行った. 具体的には, グルーヴの特徴ベクトルをどのように定義するかについて議論がなされた.
 グルーヴを表す特徴としては, 打点時刻のゆらぎの平均や標準偏差, 分散などが考えられる. しかし, これらをどのように組み合せてグルーヴの特徴を定義するかについては自明ではない. これについて, 以下の2通りの方針が示された:

(i) グルーヴ感についての先入観を持たずに, 考えられるあらゆる特徴を用いてグルーヴを定義する方法. パターン認識の識別器によっては特徴の次元が大きすぎると性能の低下を招く恐れがあるものの, 未知のグルーヴ感の発見を目指す上で有力な方法といえる.
(ii)始めにあらゆる特徴を用いてグルーヴを定義しておき, 最終的に人間が聴いてリーズナブルな分類になるように, 少数次元に縮約された特徴ベクトルを逆に推定する. 推定法としては, pLSA (probabilistic Latent Semantic Analysis)を用いる. pLSAは統計テキスト文献処理から発生するモデルで, 文章から確率的潜在変数としてのトピックを推定するのに用いられている. ここでは, グルーヴ感を直接観測できない確率的潜在変数(トピック)とみなし, それをNMFで分離された基底関数やアクティベーション行列から推定.

 上記の延長線上で, 分類を行う際にどのような距離を用いるかについても議論を行った. よく使われるのはユークリッド距離やマンハッタン距離であるが, どのような距離を設定するかについても, 新たなグルーヴの発見を目指すのか, 既存のグルーヴ感の概念に自然に合致するグルーヴの分類を目指すのかによって異なるという結論に達した.
 これらの議論により, ドラム演奏を録音した音源データから, グルーヴ感を抽出/分類するための全体的なフローを構築し, ボトルネックとなり得る課題群を抽出することができた. 共同利用の計画書においては, プロトタイプの実装までを達成目標として想定していたが, 申請者の異動に伴い研究継続が困難になったため, 3回目の打ち合わせを行った2012年9月にて, 本共同利用課題を早期終了とした.




 

当該研究に関する情報源(論文発表、学会発表、プレプリント、ホームページ等)

早期終了となったため、特になし。

研究会を開催した場合は、テーマ・日時・場所・参加者数を記入してください。

早期終了となったため、特になし。

 

研究参加者一覧

氏名

所属機関

松井 知子

統計数理研究所