在适应期间无法将音频与转录本对齐

时间:2013-12-22 03:44:43

标签: speech-recognition cmusphinx

我正在尝试将声学模型与Sphinx4一起使用,并使用我自己的一些转录数据。我用于自适应的数据是8kHz所以我改变了原始声学模型(使用16kHz音频)的params文件,因为我在整个适应过程中使用它:

-lowerf 200.00
-upperf 3500.00
-nfilt 31
-ncep 13
-transform legacy
-round_filters yes
-unit_area yes
-remove_dc no
-feat 1s_c_d_dd

特征提取似乎工作正常,但Baum Welch导致了许多错误。作为参考,Baum Welch命令行参数如下所示:

-hmmdir ../hub4opensrc.cd_continuous_8gau -moddeffn ../hub4opensrc.cd_continuous_8gau/mdef.txt -ts2cbfn .cont. -feat 1s_c_d_dd -cmn current -agc none -dictfn ../adaptationData.dict -ctlfn ../adaptationData.listoffiles -lsnfn ../adaptationData.transcription -accumdir .

每个文件的错误都是相同的(其中一个如下所示):

INFO: cmn.c(175): CMN:  9.69  0.13 -0.11 -0.13 -0.19 -0.23 -0.25 -0.19 -0.22 -0.19 -0.10 -0.09 -0.07 
ERROR: "backward.c", line 421: Failed to align audio to trancript: final state of the search is not reached
ERROR: "baum_welch.c", line 324: sn74tiCEB6F7DE7672F ignored
utt>   233       sn74tiCEB6F7DE7672F  177    0   112 12  utt 0.000x 0.000e upd 0.000x 0.000e fwd 0.000x 0.000e bwd 0.000x 0.000e gau 0.000x 0.000e rsts 0.000x 0.000e rstf 0.000x 0.000e rstu 0.000x 0.000e

我很困惑为什么算法没有完成,我想知道如果你之前遇到过这个问题,是否有人有任何关于如何克服这个问题的建议。

1 个答案:

答案 0 :(得分:0)

Hub4是16khz声学模型,你不能适应它来识别8khz音频。您需要适应窄带声学模型。例如,您可以从下载中调整通信器连续模型,或者从sphinx4调整wsj_8khz模型。