はじめに

この記事は、eeic Advent Calender 2017の21日目の記事です。

何をやろうか考えた時、はじめは去年よりマジメにダメ絶対音感やってみようかと思ったのですが、実装評価をやる時間は無かったので、読んで面白いお話（研究紹介）を書こうと思います。

人間が音声を通して言語を獲得する過程について、また音声の音響的普遍構造（発話者の性質によらない音声の物理表象）についての、僕の好きな研究の（恐れ多くも）紹介です。
（音声屋さんへ：何か間違ったことを言っていたら、ひっそりとコメントで指摘してもらえると助かります。笑）

この記事の内容のほとんどはこの資料が元になっています。
もっと詳しく知りた人はここから諸資料を読むと僕より詳しくなれる。

音声とは

人間のコミュニケーションの最もたるものは音声です。だと思っています。まあ最近はSNSの発達で、発話とタイピングのどちらの方が主なコミュニケーション手段か分かったもんじゃないですが...笑
タイピングよりも、もっとシンプルな記号（ボタン操作）を用いた意思伝達も使われる現代では、スマートスピーカー（Amazon Echo や Google Home）のような音声インターフェースが今後本当に浸透していくのか、疑問が拭えない僕です。
「いや脳波でいいじゃんw」みたいなこと言う人にも出会いました。こわちか。

そんな僕が思うに、音声を手段に意思伝達を行う最も良いところは、非言語情報を一度に伝えられるところでは無いでしょうか（脳波はさておき）。同じ文面でも、付与された感情によって発話の意図は変わってきます。 SNSでも、感情をテキストに付与するために、絵文字・顔文字・スタンプなどをみんなよく使います。
また、音声の音響的特徴は話者性（speaker identity）も含みます。その人の声・喋り方、ですね。先ほどのスタンプなども、"自分らしさ"を出すためにスタンプなどを使っている人も多いのではないでしょうか。
スマートスピーカーがここらへんの非言語情報を扱えるようになれば、その存在意義は大きく変わりそうです。ホンモノの人工知能の誕生だーと騒がれそうです。でも実際、中にいるのが人間なのか機械なのか、区別がつかなさそう。友達はみんなスマートスピーカー。人工知能は音声研究から生まれる！（爆）

音声はこのように、言語情報の他に非言語情報（話者性の他にも、音響機器による歪みなどある）が含まれます。非言語情報を排除した真の「あ」という音があった場合、非言語情報を付与することでその「あ」の物理的特徴量は歪みます。大きく歪みます。
なんなら、話者Aの「あ」という音は、話者Bの「あ」よりも「お」という音と物理的特徴量としては近いってくらい歪みます（当然距離尺度によりますが、、、）。
このような歪んだ音声をどうやって我々は認識しているのでしょうか。
初対面の人が何言ってるかマジで分からない、なんてことは基本的に無いですよね。
つまり、話者性による音声の歪み方にルールがあると考えるのが自然ではないでしょうか。
話者に対してロバストな音声知覚能力を人間は持っている。
では、そもそも人間は、そのロバストな音声知覚能力をいつ獲得するのでしょうか？
スマートスピーカーなどに実装されている音声認識器では、機械学習を用いて、多人数話者の音声を用意し音声toテキストマッピングを学習することで、話者非依存な認識器を構築することが多いと思います。
それと照らし合わせて考えると、人間は成長の過程における多様な人との音声コミュニケーションを通して、ロバストな音声知覚を獲得すると言えます。実際、そうやって獲得・強化されている面はあると、僕は思います。

しかし、例えば、赤ちゃんの言語獲得を考えた場合はどうでしょうか。

初めは何も喋れない幼児も、親が幼児のことを「かなちゃん」と呼んでいるうちに、幼児も「かなちゃん」と模倣発話をするようになるでしょう（自分のことだと認識しているかとかは置いといて）。普通のことに思われるかもしれません。
でも、よくよく考えてみてください。親の発する「かなちゃん」と幼児自ら発した「かなちゃん」は先ほど述べたように物理的特徴量としては違います。幼児の発声する「かなちゃん」は、幼児の声そのもので、大人のように低くて太い声を出そうと努力しているようには思えないです（子供を持ったことありませんが。笑）。
ちなみに、九官鳥も人の声を模倣しますが、九官鳥は模倣対象の人間と同じ声を出すらしいです。
九官鳥が喋るのを聞けば飼い主が分かる、けれど子供の声を聞いただけでは親は分からない。

このように幼児の模倣発話は、話者にロバストな音声知覚能力が備わっていないとできないと考えられます。
また、音声コミュニケーションの相手は親に著しく偏っているため、経験的に知覚能力を獲得したから模倣ができた、という説は弱い気がします。
従って、ロバストな音声知覚能力は、（ある程度）生来備わったものであるという仮定が出来ます。

この生来備わった音声知覚能力がどんなものか、未だ明らかにされていないと思いますが（多分。本当に？笑）、音（音韻）の距離に着目することで一つの説明を試みた研究を紹介します。

相対音感とか絶対音感のはなし

僕の妹はヴァイオリンを弾く音大生なのですが、絶対音感持ちらしいです。後天的に手に入れたのだとか。僕は相対音感しか持っていませんので、はえ〜〜すげ〜〜という感じです。
でも考えてみてください。ラ（A4）の音は 440Hz でド（C4）の音は 262Hz なのに、
「494Hz（実際はシ）がラの音です！」と言われて「じゃあドの音はこれ（294Hz、実際はレ）だ！」ってなる方がすごくないですか？
周波数が違うんですから、違う音に聞こえる（絶対音感の）方が普通だと思えます。
絶対音感を持っていると優れている、みたいな話は音楽界隈では多い気がしますが、実際どうなんでしょうか？
例えば、そもそも、人間以外に絶対音感を持っている動物っているんでしょうか...?鳥とかネズミとか猿とか。

f:id:manabukk:20171204003111p:plain — みんな絶対音感持ち

結論から言うと、むしろ、動物は基本的に絶対音感しか持っていないそうです。ちゃんとした相対音感を持っているのは人間くらいだとか何だとか。よく知らないけれど（）

僕のように相対音感を持っている人は、262Hzの音を提示されてもドかどうか分かりません。音が同定できない。
でも、[262, 262, 392, 392, 440, 440, 392Hz] のようにストリームとして音列を提示されると、曲がきらきら星であることが分かる。
個々の音を同定出来なくても、音楽体験を楽しむことができる。

ここで、「音楽」だけでなく「音声」を認識する能力についても同様のことが言えるのではないか。音楽において、孤立音ではなく音の動きによって曲が構成されている、動きを聴くことで曲が聞こえてくるように、音声においても、同じことが言えるのではないかということを考えたのが音声の構造的表象の始まりだそうです。

「動きだけを抽出した時に，話者／年齢／性別を超えた頑健な不変表現が数学的に入手できる。それこそ言語である」と主張するのが音響的普遍構造である。音声の構造的表象に基づく音声認知と外国語発音学習に対する一考察, 峯松信明+

また、個々の音でなく発話の全体構造を見る音声の認識は、幼児の言語獲得過程においても示唆があったようです。
具体的には、幼児の音声言語獲得は，個々の音を獲得する前に、語全体の音形（語ゲシュタルト）の獲得が先だと言われおり、個々の音に対する意識が定着するのは小学校入学以降で、それまではしりとりに難儀する子もいるんだとか（記憶にないけど）。

さらには、

近代言語学の祖ソシュールが一世紀以上も前に興味深い主張をしている。The important thing in the word is not the sound alone but the phonic differences that make it possible to distinguish this word from all others. 即ち，音ではなく，音的差異の重要性を説いている。差異を捉えることで単語が同定できる，との主張である。彼はまた Language is a system of conceptual differences and phonic differences. と主張している。「言語＝差異・動きのシステム」である。音声の構造的表象に基づく音声認知と外国語発音学習に対する一考察, 峯松信明+

なんかすげえ。

"あ"という音を"あ"だと同定する能力は、言語運用に必要ないのではないか？
"あいうえお"と音ストリームを発話して初めて同定できるのではないか？

このような背景に基づいて、語ゲシュタルトを音響音声的に解釈したのが音声の構造的表象（Speech Structure）です。

音声の構造的表象（Speech Structure）

詳しくは、ここから論文を読んでください（丸投げ）。

簡単に説明すると、まず、非言語的要因による音響歪みをケプストラム空間における一次変換 $\hat{c} = Ac + b$ で表せると仮定します。
これは、スペクトルの水平歪みと垂直歪みが、ケプストラムという音響特徴量空間内の一次変換で表されるという話なのですが、割愛。つまり、話者Aと話者Bが同じ文を発声した時に、その変換は（局所的な、時変な）一次変換で表されるという仮定です（ざっくり）。

f:id:manabukk:20171222135254p:plain:w300 — スペクトルの水平・垂直歪みと一次変換（引用元）

前章までの（音感とのアナロジーの）議論に基づいて、「あいうえお」と発話したとき、「あ->い->う->え->お」という動的な特徴量により言語情報を認識していると仮定します。この動的な特徴量が話者に対して普遍なため、初対面の人でも発話内容を理解できる、というのが構造的表象の主張です。基準となる音（例えば、"あ"）は人によって異なるけれど、基準となる音韻から各音韻への距離は話者に依存しない（言語に依存する）ということです。
ここで、動的な特徴量を静的な特徴量（ケプストラム）の差分とすることを考えてみます。静的な特徴量とは、各時刻において音声特徴量を表すベクトルです。つまり、音声データとはこの特徴量ベクトル列だと思ってください。当然ですが、このデルタケプストラムは一次変換に不変ではありません。つまり、話者ごとにこの動的特徴量は変わってしまいます。話者普遍な音声表象が得られません。どうしよう。

一次変換に不変な動的特徴量って何だろう、ということで、各音韻を点ではなく分布とみなし、その分布間距離を動的特徴量とすることを考えます。そしてf-divergenceという分布間距離を採用すると、これが一次変換に対して不変となります（ざっくり）。

f:id:manabukk:20171222135259p:plain — f-divergence を用いた一発声の構造化（引用元）

要は、各音韻の距離というものを適切に定義してあげると、音韻の距離を基準とした（相対音感的な）、話者普遍で言語依存の音声表象を作ることができる（できそう）、という話です。

実験的評価についてはここから色々読んでみてください...少なくとも限定された条件では機能しています。

自閉症や失読症のはなし

極端な絶対音感を持っている人は、オーケストラやホールが変わる度に、十分な耳慣らしが必要なんだとか。環境によって基準音が数Hz変わってしまうそうです。絶対音感を持つと環境の変化に対して柔軟に対応できなくなるわけですが、音声における極端な絶対音感者はいるのでしょうか？
音声における極端な絶対音感者が「環境に適応できない」、とは、異なる二話者の「おはよう」という発話の同一性の認知が困難になる、つまり、初対面の人の挨拶が何を言っているかさっぱり分からない、ということではないでしょうか。

このような症状は、自閉症者に見られ、自閉症者の中には母親の音声のみ言語内容が把握できる方がいるそうです。自閉症の一般的（だと僕が思っている）イメージは、入力情報の整理整頓が苦手で、細かい部分に拘りがちな人です。電話番号，住所など互いに無関係なものを膨大に記憶できる一方で，物事の因果関係や事象の抽象化が苦手、顔の部分的特徴をよく覚える一方で，顔を見て表情や話者が同定できないとか。そのためか、錯視などが起き難く、絶対音感を持っている人が多いんだとか。

極端な音声の絶対音感を持つと考えられる自閉症者にとって，物理的に異なる特性を持つ話者 A の音と話者 B の音を「同一音」として認知できる健常者の感覚こそ，想像を絶するものであると推測する。勘違いか錯覚の類いではないか，と主張しても不思議ではないが，彼らは口を開かない。何故なら，極端な絶対音感を持つ自閉症者は，音声言語を持たないからである。二話者の「おはよう」の同一性が認知できなければ，音声言語が破綻するのは自明である。音声言語は，ある種の勘違い・錯覚の上に構築されている，と考察することもできる。自閉症者の中には，文字言語を通して言語コミュニケーションを開始する場合もある。音は全て聞こえているにも拘らず，聞こえ過ぎるが故に，文字（図形）言語が第一言語となる。音声の構造的表象に基づく音声認知と外国語発音学習に対する一考察, 峯松信明+

じゃあ逆に、音声における極端な相対音感者っているんでしょうか。音楽において極端な相対音感者は、簡単に言えば、音楽を譜面に書き起こすことが出来ないと述べられています。
まぁでも、僕だって常に一音目をC4だと思っていいのなら、五線譜は各音の距離を表してくれているので書き起こせます。多分。頑張れば。自信ないけど。
では、音声における極端な相対音感者を考えてみます。音声の場合はもしかすると、音声を文字に書き起こすことが出来ないのではないでしょうか...？なにしろ、文字は五線譜とは違い各音韻の距離が視覚化されていないですから。
実際、音声言語は流暢で雄弁、さらに頭もいい、しかし、読み書きが苦手（本が読めない・手紙が書けない）という人は存在し、失読症と呼ばれているそうです。母音の多い英語を用いるアメリカでは、20%の人が失読症だとか。

私の思考が正しければ、彼らは当たり前のように存在するはずなのだが、そんな人が存在することが信じられなかったからである。ある時、勇気を出して（恥をかくこと覚悟で）言語聴覚士に、恐る恐る、聞いてみた。「音声言語は流暢だし雄弁。頭は良いのかもしれない。でも何故か本が読めない、手紙が書けない。そういう成人が米国や英国に多かったりしませんか？え〜と、教育を受けていないとか、そういう事ではなく、彼らの認知特性として文字言語が何故か難しい……」「先生、ディスレクシアってご存知なんですか？特に音韻性のやつ。」「でぃすれ……何ですかそれ？」「変だな。先生、今、自分でディスレクシアの説明してたじゃないですか。」四一年間の人生の中で、あれほど口をあんぐり開けたことは無い。顎が外れるかと思った。これは実話である。私は彼らの存在を、音声の物理学に基づいて予言していた。「あ」という声を聞いて母音「あ」と同定する能力は音声言語運用に必要か？, 峯松信明

最後に、現在の音声認識器について（ちょっと過激では、と思える）一言。

音響空間を N³ の部分空間に分け，各々の独立性を仮定してモデル化するのが triphone である。環境が変わる度に耳慣らしを行なうのが音声認識装置である。フレーム問題に端を発してロボットと自閉症児との類似性が議論されているが，音声認識装置も自閉症と類似している。言語障害の無い自閉症をアスペルガー症候群と言うが，彼らの一見奇妙な言語活動は，音声対話システムのそれと類似していることを指摘しておく。音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案, 峯松信明+

雑感

そのうち構造的表象の研究がしたいです。滔々と語っときながらしてないんかいって感じですが、してません。ほとんど引用元の言葉を借りて、あと多少の僕の感想をもって、この記事を書いていることをここに明言しておきます（）

音声の構造的表象、とても面白いと思いませんか？
むっちゃ面白いと僕は思うんですけど、ぶっちゃけあまり広く研究されていません（評価はされています）。曰く、理解や応用が難しい（とっつきにくい）というのと、理論的に固まりきっていないからじゃないか、だとか。
（自分も含めて）興味を持った人がさらなる検討をしてくれると嬉しいと（勝手に）思っています。

さいごに

この時期は、僕の記憶が正しければ、学科の後輩たちが研振りに悩んでいる頃だと思います。

この音声の構造的表象の話は某音声研究室のビッグボスの大テーマなので、興味を持った人は研究室に話を聞きに行くと良いと思います。
この記事中の言い回しに感動したあなた、かっこいいやつはほとんど受け売りなのでこれとか、冒頭に挙げたここから諸資料を読んでみると感動があります。査読に通すための書き方とはまた違うのかなとも思いますが、わいもこんな論文書きたい。
もちろん他の研究もしてますし、あと deep learning がやりたいって人は、映像系じゃなく音声を研究するのもありなんじゃないでしょうか（でぃーぷ出来ることが今も研究室の魅力になるのかはわかりませんが（笑））。

ぜひ、つらい現実（つらい）以外にも、夢や希望を抱いて配属ないし進学を迎えて欲しいです。
僕も頑張ります。

manabu’s blog

日々の足跡。

人と音声知覚のはなし（音声の構造的表象）