是否可以使用示例数据训练Google Speech API以帮助我的应用程序进行识别?
我的意思是像wit.ai提供的方法,并描述here(即使该示例适用于nlp处理)。基本上,如果您可以预测用户与机器人之间的交互,您可以训练它以更好地执行。例如,我知道将要使用的城市子集,例如:当我说Zurich
时它似乎无法使机器人理解我,它变为Syria
或Siberia
但我已经知道这是不可能的。所以,如果我,让我们说,可以上传首先使用的首选词汇列表,然后如果没有找到匹配,那么回退到标准识别或类似的方法,我认为它将获得更好的结果。
有任何想法是否有可能以及如何?我知道这些API处于测试阶段且可能会发生变化,但我仍然想尝试一下。
我可以上传一些我目前正在做的代码示例,虽然它只是发送音频并分析到目前为止的结果,所以并不是真的接近这个问题。
答案 0 :(得分:1)
在recognition config中,您可以指定使用maxAlternatives字段返回的替代字段(最多30个)。一旦您有30个替代方案,您将有Syria
信心0.5
,Siberia
信心0.01
和Zurich
信心0.1
。通常会有正确的答案,尽管它可能不在最顶层。您可以根据当前状态选择最佳替代方案。
答案 1 :(得分:0)
当前的Google Cloud Speech-to-Text API允许用户指定提供语音识别任务提示的单词和短语列表。
来自https://cloud.google.com/speech-to-text/docs/basics(mirror):
speechContext
- (可选)包含用于处理此音频的其他上下文信息。上下文包含以下子字段: 短语 - 包含提供语音识别任务提示的单词和短语列表。
有关详细信息,请参阅:https://cloud.google.com/speech-to-text/docs/basics#phrase-hints(mirror)。