如何提高分隔数字的Google语音识别准确性

时间:2018-07-17 08:32:36

标签: google-speech-api

我们将此图片提供给用户:

enter image description here

此图片代表单独的数字。我们所有的用户在麦克风中都将其读为“ 11-0-9-5”。

我们使用Google语音引擎,它会解释以下结果:

“ 1109 5”。

这使我们无法将口语与预期结果进行比较。而且我们还停留在这个阶段。

是否有一种方法可以告诉Google的语音识别功能,使它们分别从字面意义上理解语音数字,而不是将它们组合在一起?

1 个答案:

答案 0 :(得分:1)

您可以尝试使用语音上下文,以便限制GoogleSpeechEngine遵守预定义的数字。 https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext

因此,如果您指定0、1、2、3、4、5、6、7、8、9、10、11作为可能的短语,则google不应发回1109,因为它不在上下文中。

但是,使用此方法必须列出所有可能很乏味的值。有些情况无法解决。例如,某人将11当作1-1。

相关问题