应用错误收集

语音控制API - 特定短语的高精度

时间：2012-09-24 01:59:23

标签： android iphone speech-recognition siri

我对语音控制应用有几个想法。不幸的是，基于我从Siri和Google Voice Actions看到的内容，该技术似乎还没有出现。即使在非常安静的环境中，准确性也非常差，因此将其输入手机通常会更容易。

使任务变得更容易的一种方法是将系统限制为几个命令，特别是选择听起来非常不同，而不是将声音传递给服务而只是将文本恢复。

所以我的要求是：

当被要求使用一组有限的命令时，准确度非常高
最好是在移动设备上工作，但仅限PC的库也可能有用
离线再次优先，但不是必需的
无需开源 - 许可证很好

是否存在这样的API或软件？

4 个答案:

答案 0 :(得分：4)

我最近参与了一个开发基于移动语法的语音识别应用平台的项目，具有以下功能：

语法用Grammatical Framework编写，请参阅：http://kaljurand.github.com/Grammars/
服务器基于Sphinx，请参阅：https://github.com/alumae/ruby-pocketsphinx-server
可以从Android访问服务器，请参阅：https://code.google.com/p/recognizer-intent/

所有组件都是开源的，设置自己的服务器并将系统移植到您的语言应该不会太难，因为您拥有该语言的声学模型。

答案 1 :(得分：1)

VoiceXML和SRGS可能是您搜索的良好起点。遗憾的是，开源世界并不多，因为这种东西“正确”将意味着一个巨大的发薪日。

答案 2 :(得分：1)

使用支持语法的语音识别系统（SRGS）将提高您的识别率。语法通过将期望的单词和短语指定为语音识别系统用于获得匹配的规则来限制搜索空间，因此可以提高性能和识别率。

VoiceXML是开发使用电话作为交互模式的语音应用程序的好语言。我的意思是使用电话作为交互模式是用户实际拨打IVR system来接听电话，然后通过录制的音频提示和用户输入通过语音或电话键盘输入开始与用户交互。 VoiceXML不适用于具有本机Android应用程序或Web应用程序等可视界面的移动应用程序。要开发使用语音的视觉应用程序，您可以使用Nuance's mobile tool之类的东西，它可能有很高的价格标签。或像Sphinx这样的开源。

答案 3 :(得分：1)

大多数基于云的语音识别API（Google，AT＆amp; T，Siri等）不允许使用自定义SRGS语法来提高准确性。那真是太不幸了。

一种可能性是结合Voxeo中的两种技术，即Tropo和Phono。前者是一个基于API的语音平台，比VoiceXML平台更容易使用，后者是用于从浏览器进行（和控制）语音呼叫的jQuery插件。 Tropo支持SRGS语法。