我试图了解Kaldi的内部运作原理,但是却难以理解kaldi's doc的技术细节。
我想首先对各种对象有一个高层次的了解,以帮助消化所呈现的内容。我特别想知道.tree,fina.mdl和HCLG.fst文件是什么,生成它们需要什么以及如何使用它们。
我很明白(如果我错了,请纠正我):
我知道有很多内容可以解决,但我们会提供任何帮助!
答案 0 :(得分:1)
您最好一次问一个问题。另外,最好先阅读本书以了解理论,而不要尝试一次掌握所有知识。
final.mdl是声学模型,包含从一部手机过渡到另一部手机的可能性
声学模型模型final.mdl的主要成分是声学检测器,而不是过渡概率。它是用于电话的一组GMM或一个神经网络。声学模型还包含从一个hmm状态到另一hmm状态的转换概率,从而为单个电话建立了HMM模型。手机之间的转移概率在图表HCLG.fst
中进行了编码HCLG.fst是一个图表,给定一系列电话,它将基于词典,语法和语言模型生成最可能的单词序列。
并非完全如此,HCLG fst是一种有限状态转换器,可以根据词典和语言模型为您提供状态序列的概率。电话序列并没有真正用在图形中,它们是在图形构造中考虑的。
不确定添加自循环是什么,它与Kleene运算符相似吗?
语音HMM对每个状态都有自循环,它允许状态持续几个输入帧。您可以在本书中找到HMM拓扑以查看循环。
格包含用于发音的替代单词顺序。
这是正确的,但是它还包含时间以及声学和语言模型得分。
答案 1 :(得分:0)
但是HCLG的转移概率(即“ H”和“ C”中的)如何估算?我知道,由于G只是一个语言模型,所以可以从一个语料库估计单词之间的过渡概率,但是我不明白“ H”(将HMM状态转换为上下文相关的电话的转换器)的过渡概率如何。估计我是否具有用于声学模型的DNN并使用GMM-HMM的对齐方式对其进行训练,因为DNN的输出是带有发射概率的softmax。过渡概率是仅从GMM-HMM模型中获取还是在训练过程中像排放概率那样更新?