为了转换语音到文本,我使用的是cmusphinx opensource API,它将.wav音频格式转换为文本,并将语言模型用于特定的输入语音语言
答案 0 :(得分:1)
Pocket Sphinx精确度完全基于所使用的模型。为了获得更好的效果,请尝试根据目标用户训练您的声学模型。
如果您不想训练自己的模型,请尝试更改feat.params
的{{1}}的各种参数。
此外,尝试将-cmninit
设置为尽可能最小,我更喜欢recognizer.setKeywordThreshold()