嵌入式应用的语音识别引擎

时间:2009-12-07 20:05:58

标签: speech-recognition text-to-speech speech-to-text voice-recognition

我正在尝试研究可用的语音识别引擎和SDK,用于开发支持Windows CE语音的应用程序。我遇到了Nuance,但没有看到任何其他的东西。如果可能的话,我更喜欢.Net SDK,但我想大多数都是C / C ++。我很感激任何建议。谢谢。

5 个答案:

答案 0 :(得分:1)

Nuance基本上已经把所有人都买了。他们统治演讲市场,恐怕......

还有一些其他公司从事这项技术,但我不知道他们在嵌入式市场上的表现如何。有telismaLoquendo,两者都有很强的非英语存在(他们的英语也不错)。

然后还有IBM。他们有ViaVoice Embedded

该行业正在等待的一件大事是看看微软收购TellMe后会发生什么,但我认为它们可能会远离嵌入式市场而不是将处理推向“云” ,这是TellMe已经存在很长时间了。

答案 1 :(得分:1)

我使用IVR应用程序;除了Nuance,我们目前正在评估微软,IBM和Lumenvox。

大多数手机中包含的语音识别应用程序旨在将语音输入与先前说出的短语进行匹配,例如将短语“Joe”分配到地址簿条目,并让您的电话拨打该地址簿条目,当您说“乔”。更强大的语音识别引擎试图通过将一个短语分解为phonemes来解密自由形式的语音,然后与声学存储库进行匹配以试图找出实际所说的内容。完整的语音识别引擎需要相当大的CPU功率;要在移动设备上进行语音识别的复杂操作,您可能需要将数据从设备发送到服务器进行处理。

答案 2 :(得分:0)

尝试查看Microsoft的Speech API,http://msdn.microsoft.com/en-us/library/ms897381.aspx

我相信它可以在CE设备上运行。

答案 3 :(得分:0)

还有开源项目CMU Sphinx。他们有一个名为PocketSphinx的变体,它已成为便携式设备的目标。

答案 4 :(得分:0)

正如我上面的一条评论所述,我们正在尝试使用Vangard Voice Systems的语音识别.Net SDK。它使用Nuance的Vocon3200语音识别引擎,该引擎备受推崇,并且在早期测试中似乎运行良好。我们现在正在使用便宜的麦克风,并且有一些外部噪音问题。希望通过降噪耳机解决这个问题。软件模型有点缺乏,它基本上挂钩到现有的非语音应用程序。由于这一事实存在一些限制,并且开发人员可以访问有限的API。每当你试图过度简化这样的事情时,你就会使制作强大的解决方案变得更加困难。话虽如此,我们真的找不到任何竞争产品来满足我们对.Net SDK的需求,以实现移动应用程序的语音支持。他们目前有一个很好的小利基。

我更愿意使用Nuance的C ++ SDK(其他公司已经编写了.Net包装器),但Nuance商业模式假设我们正在开发转售产品并且涉及一些重要的版税。对于想要开发内部应用程序的公司而言,这是一个真正的障碍。