我正在寻找能够进行语音识别的ios API(理想的免费)。我已经看到了很少的帖子:iPhone speech recognition API?和 free speech recognition engines for iOS?,经过一些展望,我收集了看起来很有趣的sdk:
有没有真正脱颖而出并且最近的人?他们如何真正区分彼此?
答案 0 :(得分:16)
如果您只想跟踪几个关键字,不应寻找语音识别API或服务。此任务称为关键字定位,它使用与语音识别不同的算法。语音识别试图找到所说的所有单词,因此它比关键字定位消耗更多的资源。关键字观察员只会尝试查找几个选定的关键字或关键短语。这很简单,也减少了资源消耗。
归档此功能的唯一可行解决方案是使用由Pocketsphinx提供支持的OpenEars等开源软件包
http://www.politepix.com/openears
Openears有Rejecto插件,可以实现类似的功能。
Pocketsphinx本身最近也实现了开源有效的关键字定位,但它还没有进入开启者。它只能通过pocketsphinx API提供,您需要创建kws搜索并设置要查找的目标字。我希望很快这个功能也能达到OpenEars。
答案 1 :(得分:3)
Nuance为开发者提供免费访问权限(但不是高容量) - 请参阅http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html或http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home
Nuance服务通常是商业性的,需要预付费和交易费。上面有趣的消息是,他们现在可以免费向开发人员大量使用他们的服务。因此,对于开发,测试和演示,您可以使用免费的Nuance服务。但是,与Android中免费提供的Google服务不同,如果您的应用拥有数千名用户,则可能需要为Nuance服务付费。
答案 2 :(得分:2)
我们自2008年以来一直在开发CeedVocal SDK,它基于Julius& FLite开源项目。
以下是一些背景信息:我们想在2008年制作我们的应用程序(Vocalia)进行语音识别,并基本上选择了Julius(犹如Pocket Sphinx,看起来也不错)并优化了其文件格式以便启动在原始iPhone上1-2秒而不是20秒。然后我们尽职尽责地用6种语言训练我们自己的声学模型。我们设计了API,并最终决定将其作为SDK提供给其他开发人员。
CeedVocal基本上支持2种操作模式:
在第一种操作模式中,它尝试将输入语音与可接受输入列表中的单词(或短语)对齐。这会强制输入到预先知道的单词,即使语音是其他内容。准确性很好。在第二种操作模式中,它将尝试将其中一个关键字选择到语音流中。这是一个困难的案例,它可能不太准确。