Question

我非常想传递的是一个包含单个数字的微小音频片段（8Khz电话），并将单个数字作为文本返回，缩小为数字。

文件输入＆gt;数字作为文本输出。最好通过python命令行API。

问题是，默认情况下，它会识别1,2,3,4,5这样的东西，也就是免费，前，5 ......没有好处！

我相信我想要一个所谓的语法？或者亚马逊在Alexa中使用的数字插槽类型？我查看了云语音文档但无法找到它。我唯一能想到的是循环给出的替代方案，看看是否匹配int而不是单词。如果没有，那么呢？

感谢。

Answer 1

A.Queue的答案是正确的，但是，如果其他人被文档咬伤：

{ "phrases": [ string], }

speech_contexts

可选：提供上下文以辅助语音识别的方法。

python示例显示：

language_code='en-US',
max_alternatives=max_alternatives,
profanity_filter=True,
speech_contexts=['Google', 'cloud'],

实际上有效的是：

speech_contexts=[speech.types.SpeechContext(
     phrases=['Google', 'cloud'],
 )]

我设法从Slack的Googler那里得到了这个，他向我指出了一些更全面和准确的documentation。为最后的理智添加书签。

Answer 2

尝试添加speechContexts。然后，您可以添加一些您认为最有可能的短语。