我想实现以下想法。我需要我的用户打开网页或移动应用程序并说些什么。用户的语音将被记录结束发送到本地服务器,我希望服务器处理它并生成一些语音输出。
我的问题是下一个:
使用哪种语音识别API?在我的情况下,音频文件将是 发送到服务器,然后将被处理。
我需要识别姓名和姓氏。这是一个潜在的问题,因为我不会生活在讲英语的国家,姓名和姓氏对于讲英语的人来说可能相当奇怪。我想通过在" dictionary"中添加必需的名字和姓氏来实现这一点。语音识别系统,所以我需要一个可以扩展它的字典。
我需要一个自由的决定。
那么,我应该使用哪种语音识别API来实现我的想法?
答案 0 :(得分:1)
过去,我使用CMU Sphinx toolkit进行语音识别,取得了成功。我在Android应用程序中使用了它的变体。如果我没记错的话,它确实允许创建一个特定单词的字典来查找,以便它可以满足您的需求。
答案 1 :(得分:1)
我建议您查看Nuance的Speech API。它们拥有市场上最好的产品,可在任何平台上使用。我们将它们用于我们的产品LinguSocial,它为移动设备提供近乎实时的语音呼叫转换功能。固定电话和机器翻译视频聊天。