Google语音API最能识别哪些(简短)字词?

时间:2014-04-10 02:36:59

标签: google-api speech-recognition speech speech-to-text

关于SO的第一个问题,希望它离左场不太远。

动机: 我正在研究(Benoit的google2ubuntu语音控制工具。(/ p>)

目前,为了使其工作,用户必须在开始说出命令之前按热键来调用程序。 我已经实现了一个热门模式,其中一个守护进程(真正的bash脚本)在后台连续运行,监听超过预设阈值的声音,记录2秒,然后将录音发送到Google的语音到文本API进行转换。 它获取返回的结果,然后检查热门词,然后启动实际程序。

我正在寻找Google API可靠识别的热门词汇。 API返回其认为您所说内容的文本表示,以及表示其猜测和录音匹配程度的置信度。

使用此功能,我们可以比较不同热门词汇的检测率: 例如,“okay Google”这个短语(毫不奇怪)非常受到认可,定期返回结果,如

"hypotheses": {"utterance": "Okay Google", "confidence": 0.95967352}

更通用的“好的计算机”并不像可靠的那样被认可,但在平均置信水平0.85时仍然没有。我测试过的一些比较模糊的短语包括“好的贾维斯”(如果我们打算制作一台语音控制的电脑......),不幸的是,它有一半时间的高置信度和完全未命中。 另一方面,“Okay Linux”根本不被认可。

  

问题:有谁知道Google API可以识别哪种短语?

好的热门词汇的例子是短语,这些短语通常不会出现在每日演讲中(否则我们每次进行对话时都会引导该节目),但即使是哑巴计算机也足够“特殊”。

1 个答案:

答案 0 :(得分:1)

最好使用最近在CMUSphinx中实现的离线关键字检测器进行收听。所以没有必要将所有音频流式传输到谷歌,不需要保持互联网连接,响应速度很快。密钥短语是可配置的,可以调整检测阈值。您已经将竞争对手整合到他们的助手中,例如Pocketsphinx Android Demo。也可以使用python api中的关键字定位。