LATENT DIRICHLET LANGUAGE MODEL FOR SPEECH RECOGNITION

著者：Jen-Tzung Chien and Chuang-Hua Chueh
アブストラクト：LDAは文書のモデリングと分類に成功している。LDAは単語の連鎖を考慮せずに、bag-of-wordsの枠組みに基づいて文書確率を計算する。このモデルは音声認識において、単語予測の確かさから異なる、文書レベルでのトピック構造を発見する。（？）この論文では、単語列のモデリングに対する潜在的ディリクレ言語モデル(LDLM)を提案する。新しいベイズの枠組みは、n-gramイベントの潜在的なトピックの不確かさを特徴付けるために、事前分布としてディリクレ分布を用いることで、導入される。頑健なトピックに基づく言語モデルは状況に応じて構築される。実験では、連続音声認識に対するLDLMを実装し、PLSA言語モデルよりも良い結果を得た。
キーワード：Natural languages, Bayes procedures, clustering methods, smoothing methods, speech recognition
状態：未読、