应用错误收集

什么是Sphinx的理想音频级别？

时间：2015-11-08 20:27:28

标签： audio cmusphinx

在我的系统上，使用我的USB麦克风，我发现最适合CMU Sphinx的音频电平约为最大值的20％。这为我提供了75％的语音识别准确度。如果我以数字方式放大，我的识别准确度会差得多（25％）。为什么是这样？什么是Sphinx的推荐音频级别？ [我也使用16,000个样本/秒，16位。]

1 个答案:

答案 0 :(得分：0)

pocketsphinx解码器使用通道幅度归一化。初始标准化值确实配置为模型内的20％音频级别（feat.params中的-cmninit参数）。但是，级别会在您解码时更新，因此它只会影响第一个话语。如果在连续模式下正确解码，级别无关紧要。不要为每个话语重新启动识别器，让它适应噪声和音频电平。