韻律学というか音声全般

韻律学(metrics)について韻律と音声言語情報処理という本で勉強してる.まぁちょっと難しい.自分は音声に関してド素人もいいところ*1なので,もっと音声一般に関する初歩的な用語から勉強する必要性を感じている.なので今これの1章を読んでいる.

韻律(prosody)ってのは,人が発話したときの音声に含まれる声の抑揚,アクセント,感情といった非言語情報(パラ言語情報?)のこと.この本の方向性は,今までは音声認識などの音声言語処理では音韻情報が主眼において利用されてきたけど,もっと韻律情報を積極的に利用しようという感じ.

実際Juliusなんか音声認識させたいとき,朗読調で発声するとちゃんと認識してくれるけど,ちょっと速めに発声したりしたらあんまり認識してくれなくなることがある.これは韻律でいう速く発話するスタイルが音声認識において邪魔をしてるってことだよね.なので韻律情報を利用するといってもどう利用するのか,韻律の中でもどの情報が音声認識タスクに役立つのかっていうあたりが気になるけど,これはぜひ最初に取り上げた本の5章を読んで勉強したい.

あと,編著者は広瀬啓吉 教授 -- 東京大学の人.
以下memoのつもり.適宜更新

*1:基本周波数ってなんに利用できるの?っていうレベル.じゃあなんでこんな本読んでるの?って感じだけど