我使用pocketsphinx进行语音识别,使用西班牙语声学模型和JSGF语法,到目前为止效果不错。
然而,我用音频获得错误的识别结果,至少在我看来,它似乎是完全可理解的(根据声学模型参数,没有那么多背景噪音,采样频率和位深度等)。
此音频未被正确识别,似乎与正确识别的音频有很大不同(实际上它们对我来说听起来几乎相同)。
所以,我猜测音频中有些东西会让识别起来更加困难,可能还有一些噪音或其他需要过滤的东西? (背景噪音," pop"语音,人声之外的频率等)
简而言之,你知道pocketphinx是否已经做了这件事,如果没有,你知道任何最佳实践过滤器/转换等应用于音频文件以改善语音识别结果吗?
谢谢!
答案 0 :(得分:1)
不,任何预处理通常对语音识别准确性都是非常有害的。
现代语音识别算法的制作方式即使是轻微的预处理也可能使结果更糟糕。由于您的语音识别功能远远优于计算机功能,因此您无法轻易区分它。像增加自然性或简单的mp3压缩/解压缩等微小回声之类的东西可能会显着降低准确性。
解决方法是从您想要识别的相同音频训练模型,例如,使用mp3解压缩音频而不是干净音频训练。默认模型是在干净的音频上训练的,这使声音修改不是很强大。这种多风格的培训有其自身的缺点,因为它使培训数据非常大,因此它仍然是正在进行研究的主题。