google-speech-api - 如何提高分隔数字的Google语音识别准确性

时间：2018-07-17 08:32:36

标签： google-speech-api

我们将此图片提供给用户：

此图片代表单独的数字。我们所有的用户在麦克风中都将其读为“ 11-0-9-5”。

我们使用Google语音引擎，它会解释以下结果：

“ 1109 5”。

这使我们无法将口语与预期结果进行比较。而且我们还停留在这个阶段。

是否有一种方法可以告诉Google的语音识别功能，使它们分别从字面意义上理解语音数字，而不是将它们组合在一起？

答案 0 :(得分：1)

您可以尝试使用语音上下文，以便限制GoogleSpeechEngine遵守预定义的数字。 https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext

因此，如果您指定0、1、2、3、4、5、6、7、8、9、10、11作为可能的短语，则google不应发回1109，因为它不在上下文中。

但是，使用此方法必须列出所有可能很乏味的值。有些情况无法解决。例如，某人将11当作1-1。