使用CMU sphinx4的简单步骤

时间:2013-05-27 12:20:52

标签: cmusphinx

我想使用CMU sphinx4转录给定的音频文件。它应该采用.wav格式的音频文件,并以印度英语进行对话。我是CMUSphinx的新手,无法轻易逐步描述该过程。

1 个答案:

答案 0 :(得分:7)

您可能希望查看sphinx api提供的转录器演示。

您只需更改语言模型和声学模型,在config.xml文件中配置相同的代码,然后使用相同的代码。

  1. 语言模型 - 根据应用程序的用例,您可以使用具有5k字的WSJ语言模型,或者您可以创建自己的模型。要创建自己的landuage模型,您可以阅读更多here。一种简单的方法是使用lmtool。谷歌“lmtool cmu”

  2. 声学模型 - 如果你想要一个印度口音的应用程序,你需要有印度英语的音频文件,以及相应的转录文件。根据您的使用情况,您可以训练自己的声学模型,也可以调整现有的声学模型。阅读更多here。您也可以在线搜索数据集。

  3. 配置config.xml文件中的内容,以便您的应用程序使用您的语言和声学模型。

  4. 对于初学者,这些步骤可能会有所帮助 -

    1. 阅读sphinx架构并尝试演示
    2. 研究语言模型是什么。
    3. 了解如何构建语言模型。 (lmtool,cmuclmtk等)
    4. 了解声学模型是什么。
    5. 了解如何训练/改编声学模型。
    6. 在java应用程序中配置config.xml文件以使用这些模型。