在我的系统上,使用我的USB麦克风,我发现最适合CMU Sphinx的音频电平约为最大值的20%。这为我提供了75%的语音识别准确度。如果我以数字方式放大,我的识别准确度会差得多(25%)。为什么是这样?什么是Sphinx的推荐音频级别? [我也使用16,000个样本/秒,16位。]
答案 0 :(得分:0)
pocketsphinx解码器使用通道幅度归一化。初始标准化值确实配置为模型内的20%音频级别(feat.params中的-cmninit参数)。但是,级别会在您解码时更新,因此它只会影响第一个话语。如果在连续模式下正确解码,级别无关紧要。不要为每个话语重新启动识别器,让它适应噪声和音频电平。