我对语音控制应用有几个想法。不幸的是,基于我从Siri和Google Voice Actions看到的内容,该技术似乎还没有出现。即使在非常安静的环境中,准确性也非常差,因此将其输入手机通常会更容易。
使任务变得更容易的一种方法是将系统限制为几个命令,特别是选择听起来非常不同,而不是将声音传递给服务而只是将文本恢复。
所以我的要求是:
是否存在这样的API或软件?
答案 0 :(得分:4)
我最近参与了一个开发基于移动语法的语音识别应用平台的项目,具有以下功能:
所有组件都是开源的,设置自己的服务器并将系统移植到您的语言应该不会太难,因为您拥有该语言的声学模型。
答案 1 :(得分:1)
VoiceXML和SRGS可能是您搜索的良好起点。遗憾的是,开源世界并不多,因为这种东西“正确”将意味着一个巨大的发薪日。
答案 2 :(得分:1)
使用支持语法的语音识别系统(SRGS)将提高您的识别率。语法通过将期望的单词和短语指定为语音识别系统用于获得匹配的规则来限制搜索空间,因此可以提高性能和识别率。
VoiceXML是开发使用电话作为交互模式的语音应用程序的好语言。我的意思是使用电话作为交互模式是用户实际拨打IVR system来接听电话,然后通过录制的音频提示和用户输入通过语音或电话键盘输入开始与用户交互。 VoiceXML不适用于具有本机Android应用程序或Web应用程序等可视界面的移动应用程序。要开发使用语音的视觉应用程序,您可以使用Nuance's mobile tool之类的东西,它可能有很高的价格标签。或像Sphinx这样的开源。
答案 3 :(得分:1)