我想使用CMU sphinx4转录给定的音频文件。它应该采用.wav格式的音频文件,并以印度英语进行对话。我是CMUSphinx的新手,无法轻易逐步描述该过程。
答案 0 :(得分:7)
您可能希望查看sphinx api提供的转录器演示。
您只需更改语言模型和声学模型,在config.xml文件中配置相同的代码,然后使用相同的代码。
语言模型 - 根据应用程序的用例,您可以使用具有5k字的WSJ语言模型,或者您可以创建自己的模型。要创建自己的landuage模型,您可以阅读更多here。一种简单的方法是使用lmtool。谷歌“lmtool cmu”
声学模型 - 如果你想要一个印度口音的应用程序,你需要有印度英语的音频文件,以及相应的转录文件。根据您的使用情况,您可以训练自己的声学模型,也可以调整现有的声学模型。阅读更多here。您也可以在线搜索数据集。
配置config.xml文件中的内容,以便您的应用程序使用您的语言和声学模型。
对于初学者,这些步骤可能会有所帮助 -