我们将此图片提供给用户:
此图片代表单独的数字。我们所有的用户在麦克风中都将其读为“ 11-0-9-5”。
我们使用Google语音引擎,它会解释以下结果:
“ 1109 5”。
这使我们无法将口语与预期结果进行比较。而且我们还停留在这个阶段。
是否有一种方法可以告诉Google的语音识别功能,使它们分别从字面意义上理解语音数字,而不是将它们组合在一起?
答案 0 :(得分:1)
您可以尝试使用语音上下文,以便限制GoogleSpeechEngine遵守预定义的数字。 https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext
因此,如果您指定0、1、2、3、4、5、6、7、8、9、10、11作为可能的短语,则google不应发回1109,因为它不在上下文中。
但是,使用此方法必须列出所有可能很乏味的值。有些情况无法解决。例如,某人将11当作1-1。