应用错误收集

使用CMU sphinx4的简单步骤

时间：2013-05-27 12:20:52

标签： cmusphinx

我想使用CMU sphinx4转录给定的音频文件。它应该采用.wav格式的音频文件，并以印度英语进行对话。我是CMUSphinx的新手，无法轻易逐步描述该过程。

1 个答案:

答案 0 :(得分：7)

您可能希望查看sphinx api提供的转录器演示。

您只需更改语言模型和声学模型，在config.xml文件中配置相同的代码，然后使用相同的代码。

语言模型 - 根据应用程序的用例，您可以使用具有5k字的WSJ语言模型，或者您可以创建自己的模型。要创建自己的landuage模型，您可以阅读更多here。一种简单的方法是使用lmtool。谷歌“lmtool cmu”
声学模型 - 如果你想要一个印度口音的应用程序，你需要有印度英语的音频文件，以及相应的转录文件。根据您的使用情况，您可以训练自己的声学模型，也可以调整现有的声学模型。阅读更多here。您也可以在线搜索数据集。
配置config.xml文件中的内容，以便您的应用程序使用您的语言和声学模型。

对于初学者，这些步骤可能会有所帮助 -

阅读sphinx架构并尝试演示
研究语言模型是什么。
了解如何构建语言模型。（lmtool，cmuclmtk等）
了解声学模型是什么。
了解如何训练/改编声学模型。
在java应用程序中配置config.xml文件以使用这些模型。