谷歌云语音文本语法将结果缩小到多少?

时间:2018-01-17 21:19:07

标签: python google-cloud-platform speech-recognition google-cloud-speech

我非常想传递的是一个包含单个数字的微小音频片段(8Khz电话),并将单个数字作为文本返回,缩小为数字。

文件输入>数字作为文本输出。最好通过python命令行API。

问题是,默认情况下,它会识别1,2,3,4,5这样的东西,也就是免费,前,5 ......没有好处!

我相信我想要一个所谓的语法?或者亚马逊在Alexa中使用的数字插槽类型?我查看了云语音文档但无法找到它。我唯一能想到的是循环给出的替代方案,看看是否匹配int而不是单词。如果没有,那么呢?

感谢。

2 个答案:

答案 0 :(得分:4)

A.Queue的答案是正确的,但是,如果其他人被文档咬伤:

link given建议:

{ "phrases": [ string], } 

python documentation说:

  

speech_contexts

     

可选:提供上下文以辅助语音识别的方法。

python示例显示:

language_code='en-US',
max_alternatives=max_alternatives,
profanity_filter=True,
speech_contexts=['Google', 'cloud'],

实际上有效的是:

speech_contexts=[speech.types.SpeechContext(
     phrases=['Google', 'cloud'],
 )]

我设法从Slack的Googler那里得到了这个,他向我指出了一些更全面和准确的documentation。为最后的理智添加书签。

答案 1 :(得分:2)

尝试添加speechContexts。然后,您可以添加一些您认为最有可能的短语。