音频语言识别

时间:2014-06-09 06:30:57

标签: audio cmusphinx

我正在寻找一个开源库来检测音频文件中使用的口语,例如wav文件。

我试过CMU sphinx,但是无法理解如何将它用于语言检测?有人可以帮忙吗?

2 个答案:

答案 0 :(得分:2)

如果您愿意学习另一个工具包,您应该考虑Kaldi [1]。它是一个开源语音识别工具包,在主干中使用说话人识别系统(使用类似的模型作为语言识别系统),在沙箱语言中使用实验语言识别设置。签出存储库后,您可以使用svn switch ^ / sandbox / language_id切换到LID沙箱。 LID示例在egs / lre07中。

无论您使用哪种工具包,我都推荐使用基于i-Vector的系统而不是语音系统。基于i-Vector的系统将更容易设置,因为它不需要转录本,并且速度更快,因为它避免了解码。

答案 1 :(得分:1)

您可以在所有手机解码模式下尝试CMU sphinx。 训练您想要识别的语言模型。 选择假设得分最佳的语言