正确识别Google Speech API的识别结果

时间:2016-10-28 07:13:20

标签: google-api speech-recognition

是否可以使用示例数据训练Google Speech API以帮助我的应用程序进行识别?

我的意思是像wit.ai提供的方法,并描述here(即使该示例适用于nlp处理)。基本上,如果您可以预测用户与机器人之间的交互,您可以训练它以更好地执行。例如,我知道将要使用的城市子集,例如:当我说Zurich时它似乎无法使机器人理解我,它变为SyriaSiberia但我已经知道这是不可能的。所以,如果我,让我们说,可以上传首先使用的首选词汇列表,然后如果没有找到匹配,那么回退到标准识别或类似的方法,我认为它将获得更好的结果。

有任何想法是否有可能以及如何?我知道这些API处于测试阶段且可能会发生变化,但我仍然想尝试一下。

我可以上传一些我目前正在做的代码示例,虽然它只是发送音频并分析到目前为止的结果,所以并不是真的接近这个问题。

2 个答案:

答案 0 :(得分:1)

recognition config中,您可以指定使用maxAlternatives字段返回的替代字段(最多30个)。一旦您有30个替代方案,您将有Syria信心0.5Siberia信心0.01Zurich信心0.1。通常会有正确的答案,尽管它可能不在最顶层。您可以根据当前状态选择最佳替代方案。

答案 1 :(得分:0)

当前的Google Cloud Speech-to-Text API允许用户指定提供语音识别任务提示的单词和短语列表。

来自https://cloud.google.com/speech-to-text/docs/basicsmirror):

  

speechContext - (可选)包含用于处理此音频的其他上下文信息。上下文包含以下子字段:   短语 - 包含提供语音识别任务提示的单词和短语列表。

有关详细信息,请参阅:https://cloud.google.com/speech-to-text/docs/basics#phrase-hintsmirror)。