ダメ絶対音感について実験してみた その2
はじめに
この記事は ダメ絶対音感について実験してみた の続きです。
追実験とその考察についてまとめました。
追実験
追実験と言ってもやったことは、
- UBM 学習用の音声データに JNAS と呼ばれる音声コーパスを用いた。具体的には JNAS 内の男性話者100名と女性話者100名について各話者4分程度の音声データを用意した。
- GMM の混合数、EMアルゴリズムのイテレーション回数、i-vector の次元数などのパラメータを色々と試した。
- 集めた音声データのうち雑音やBGMが入っているデータは除外した。
という程度です。
結果
前回の実験と結果は変わりませんでした。
ただ、声優の地声発話データを各声優3発話用意して i-vector を抽出・距離を計算したところやはり声優識別は正しく出来ていました。
考察
これもう、声優がキャラクターを演じると i-vector 空間上では他の話者とみなされるほど声質が変化しているということでは!??
と思ったので、アニメや声優をよく知らない研究室の先輩に実際に音声を聞き比べてもらいました。
椎名まゆり(CV: 花澤香菜)の音声データを聞いてもらったあと、花澤香菜と東山奈央のラジオ音声を聞いてもらって「どちらの声優が声を当てていると思いますか?」と質問したところ、
あまり迷わず東山奈央だと答えました。
これはプログラムの識別結果と一緒です... つまり、単純な声質だけではダメ絶対音感は成り立たないのかもしれません。
研究室の先生ともわいわい議論したのですが、i-vector の話者内変動(話者に同じ内容を読み上げてもらっても1回目と2回目じゃ絶対少しはしゃべり方変わってしまうよねってこと)を考慮して距離計算をしているのですが、声優の演技は話者内変動というには変化が大きすぎてもはや別人だと言えそうです。
これつまり声紋認証とか無理ってことかな。やろうと思えば他人の声真似ることできるわけだし。指紋認証のようにはいかなさげ。
あと大きな疑問として、何でダメ絶対音感なんて特技(?)が出きるのか、という問題が残ります。
いくつか理由を考えてみたのですが、
- 声質以外のキャラクターの演じ方に声優の方々の個性が乗っている。
アクセントとかの韻律情報は今回使っていないです。音声の特徴量としてmfcc(メル周波数ケプストラム係数)を用い、GMM 生成モデルを構築して i-vector を抽出しているのですが、この mfcc に韻律情報はのっていません。気になる人は頑張って調べて。 - 複数の話者モデル(キャラクター)が存在して実はみんな同じ声優が声をあてているんだよ、ということを知っている。(つまり声優が新しい演技をしたらそのキャラクターのCVが誰かわからなくなる)
- そもそもダメ絶対音感出来ていない。オタクの驕り。
といったところでしょうか。
ダメ絶対音感を本気でやろうと思ったら声質変換の話も混ぜてごちゃごちゃと出来ないでもないかもしれない(?)ですが、普段の研究レベルのタスクになるので、この話はここでおしまいです。
せっかくスクリプト書いたりもしたので、次は時間があれば声優の声を i-vector 空間上に埋め込んで(どの声優の声が似ているかなど)可視化してみてもいいかもしれません。