语言模型/集不包含

时间:2014-09-20 19:12:35

标签: cmusphinx pocketsphinx-android

我正在使用 PocketSphinx 开发ASR,我已按照此page的每一步进行操作。当我运行pocketsphinx_continous时,我收到以下错误:

ERROR: "ngram_search.c", line 221: Language model/set does not contain </s>, recognition will fail

我的语言模型包含 / s 标记。

我的语言模型如下:

This is an ARPA-format language model file, generated by CMU Sphinx
\data\
ngram 1=3
ngram 2=1
ngram 3=1

\1-grams:
-0.4770 <s>Alif</s> -0.3010
-0.4770 <s>Baa</s> 0.0000
-0.4770 <s>Jeem</s> 0.0000

\2-grams:
-0.1761 <s>Alif</s> <s>Baa</s> -0.1249

\3-grams:
-0.3010 <s>Alif</s> <s>Baa</s> <s>Jeem</s> 

\end\

制作此文件的语料库文件是:

<s> Alif </s>
<s> Baa </s>
<s> Jeem </s>

非常感谢协助解决此问题。

1 个答案:

答案 0 :(得分:2)

当您准备语料库时,<s>和Alif之间没有空格,因此lm训练将<s>Alif</s>计为单个单词。你应该有空格,正确的语言模型应如下所示:

\data\
ngram 1=5
ngram 2=6
ngram 3=0


\1-grams:
-0.3010 </s> 0.0000
-99.0000 <s> -7.3814
-0.7782 Alif -99.0000
-0.7782 Baa -99.0000
-0.7782 Jeem -99.0000

\2-grams:
-0.4771 <s> Alif 0.0000
-0.4771 <s> Baa 0.0000
-0.4771 <s> Jeem 0.0000
0.0000 Alif </s> 0.0000
0.0000 Baa </s> 0.0000
0.0000 Jeem </s> 0.0000

\3-grams:

\end\

这个正确的LM具有</s>

的单独条目