Google Speech API可以配置为仅返回数字/字母吗?

时间:2017-07-25 18:04:58

标签: google-api google-cloud-platform voice-recognition google-speech-api google-cloud-speech

Google Speech API是否可以配置为仅返回数字和字母,而不是完整的字词?

用例是翻译加拿大邮政编码。 防爆。 M 1 B 0 R 3. Google可能会返回“Em 1 Be 0 Are 3”

我们尝试过:

  • 使用speechContexts并输入字母A - Z作为单独的短语。这提高了我们的准确性。我们没有太多成功传递个人数字(例如,1,2,3)。
  • 使用encodingsampleRateHertz配置选项指定WAV文件的编解码器和采样率。我们认为这并没有改善,因为我们认为Google已经在自动识别采样率和编码方面做得很好。

我们的音频文件为8000hz,编码为“M-ULAW”。我们无法灵活地更改采样率或编码。

有没有办法让Google针对此用例获得更准确的回复?即使是更好speechContexts短语的想法也是受欢迎的。

谢谢

1 个答案:

答案 0 :(得分:0)

我们正在经历相同的结果,我们希望有一个基于语法的“上下文”建议或一个仅强制数字返回变量的参数。

api版本的更改不能固定数字的识别方式,甚至不能使用模型:phone_call。

实际上,识别某种数字更好,是切换到en_US语言环境,这又迫使识别引擎将数字列表识别为电话。因此,它以类似于电话的语法返回,并带有+ XXX-XXX-XXX-XXXX,这使得检测确实非常好。

所以我不明白为什么Google的语法匹配在幕后,并且无法通过其api使用。