扬声器适应HTK

时间:2011-06-18 14:47:54

标签: machine-learning signal-processing speech-recognition htk

我正在努力使基于单音的识别器适应特定的发言者。我正在使用HTKBook 3.4.1 section 3.6.2中给出的配方。我被困在HHEd部分,我正在调用像sp:

HHEd -A -D -T 1 -H hmm15/hmmdefs -H hmm15/macros -M classes regtree.hed monophones1eng

我最终得到的错误如下:
ERROR [+999] Components missing from Base Class list (2413 3375)
ERROR [+999] BaseClass check failed

文件夹classes包含文件global,其中包含以下内容:
~b ‘‘global’’
<MMFIDMASK> *
<PARAMETERS> MIXBASE
<NUMCLASSES> 1
<CLASS> 1 {*.state[2-4].mix[1-25]}

hmmdefs中的hmm15文件中有一些混合成分(我每个手机的每个状态使用25个混合成分)丢失了。我试图通过给出具有随机均值和方差值但零重量的混合成分来“填补空白”。这也没有效果。

hmms是左右hmms,具有5个状态(3个发射),每个状态由25个组分混合物建模。每个组件依次由具有EDA组件的MFCC建模。总共有46部手机。

我的问题是:
1.我调用HHEd的方式是否正确?可以用上述方式调用单声道吗?
2.我知道基类列表(rtree.base必须包含每个混合组件,但在哪里可以找到这些缺少的混合组件?

注意:如果需要更多信息,请告知我们。

编辑1:文件regtree.hed包含以下内容:

RN "models"
LS "stats_engOnly_3_4"
RC 32 "rtree"

谢谢,
斯利拉姆

1 个答案:

答案 0 :(得分:1)

他们调用HHEd看起来很好。它们已经失效,组件丢失了。要处理已解散的组件,请阅读HTKBook-3.4.1第8.4节第137页。

问题: - regtree.hed包含什么? - 您使用了多少数据(以小时为单位)? 25种混合物可能过量。

您可能希望使用混合物逐渐增加 - MU +1或MU +2并限制混合物的数量(猜测:3-8取决于训练数据量)。