什么是上下文相关的声学建模?

时间:2016-05-22 14:56:02

标签: speech-recognition

我试图找出确切的上下文独立/依赖声学建模是什么。我一直试图阅读一些解决它的论文,但我对这个概念仍然有些不稳定。正如我目前所理解的(可能是错误的)上下文相关的声学模型是在数据上训练的声学模型,其中音素在序列中出现。例如,对具有单词的目标语言进行训练,因此音素是由上下之前发生的音素依赖于上下文,给予它们上下文。并且独立的上下文将是一个声学模型,一些如何仅通过单独的音素训练。

1 个答案:

答案 0 :(得分:1)

传统方法是用隐马尔可夫模型(HMM)识别语音。基本上在HMM中,您尝试将输入声音表示为一系列状态。每个州都对应于音素的某个部分。

不同之处不在于模型的训练内容,而在于模型本身的结构。声学模型是一组声音探测器。每个探测器都描述了相似的声音,例如,它可能是高斯混合模型(GMM),它描述了最可能的音素特征值。或者它可能是一个检测特定声音的神经网络。

在与上下文无关的模型中,隐马尔可夫模型的结构很简单,您可以使用单个检测器检测所有出现的手机。假设您使用探测器

检测到“hi”
 HH_begin HH_middle HH_end IY_begin IY_middle IY_end

你用手机HH检测到完全相同的检测器“hoy”这个单词

 HH_begin HH_middle HH_end OY_begin OY_middle OY_end

在依赖于上下文的模型中,“hi”和“hoy”中的HH检测器是不同的并且分开训练。基本上他们有不同数量的参数。这是合理的,因为周围的手机会影响手机本身的发音,手机开始听起来有点不同。你有

 HH_before_IY_begin HH_before_IY_middle 
     HH_before_IY_end IY_after_HH_begin 
        IY_after_HH_middle IY_after_HH_end

对于hoy

 HH_before_OY_begin HH_before_OY_middle 
     HH_before_OY_end OY_after_HH_begin 
        OY_after_HH_middle OY_after_HH_end

这种方法的优点在于,因为您有更多参数,所以您可以更准确地识别语音。缺点是你必须考虑很多变种。

语音识别算法非常复杂,超出了公共网络通常描述的范围。例如,为了减少检测器的数量,通常将依赖于上下文的模型聚类并绑定到一些较小的集合中。而不是数百种可能的上下文相关检测器,您只需合并数千个检测器就可以提供良好的区分和推广。

如果您认真对待语音识别算法和实践而非网络上的随机来源,最好先阅读Spoken Language Processing或至少文章The Application of Hidden Markov Models in Speech Recognition等教科书