Twilio和Nuance ASR的可能性

时间:2016-10-06 05:50:46

标签: twilio speech-recognition naturallyspeaking

是否有人使用twilio和Nuance ASR(https://developer.nuance.com/public/index.php?task=memberServices)来创建语音识别应用程序?\

我认为时滞不会使其变得可行。例如,如果我要提示用户说些什么并让Nuance识别出来并让我回复转录,那么我认为在我的系统中进行进一步的操作只需要很长时间。

  1. 从用户处捕获音频,
  2. 从twilio获取录音网址,
  3. 并将音频文件传递给细微差别
  4. 然后从细微差别中获取转录
  5. 将这些字词与我的数据相匹配
  6. 采取适当的行动
  7. 这一切都应该发生得相当快,但它是否足够快,可以为来电者所接受?

    任何想法都会很棒 谢谢

    PS。我试图创建标签Nuance,但不允许

3 个答案:

答案 0 :(得分:2)

我目前正致力于提供实时翻译的通信平台,我正在使用Twilio作为我们的autom的平台提供商。翻译语音通话功能。来自Nuance的ASR技术至少可以说是平均水平,并且绝对不能用于低频段音频。查看Google Cloud Speech API。我用它取得了很好的成绩。 ASR大约需要3-5秒。

答案 1 :(得分:1)

Nuance Recognizer可以使用低频音频 - 实际上它设计用于电话环境 - 之前的评论不正确。然而,问题是将Twilio的音频流及时恢复到识别器以进行部分识别。通常,Nuance Recognizer使用MRCP与IVR平台集成,但我不认为Twilio支持该协议。因此,如果使用第三方引擎,您可能必须记录该短语,然后提交(传输)到您的ASR实例,处理响应,并将结果发送回Twilio - 这会导致延迟,因为ASR引擎无法处理部分音频。问题的简单示例 - 如果有人正在说话10秒钟,结果将不会再回到Twilio 10秒钟(录制时间)+传输时间+处理时间+返回Twilio的时间。

答案 2 :(得分:0)

我知道这是个老问题,但是这个问题仍然出现在Google搜索结果的第一页上,twilio asr

这是一个无耻的插件,但我们的Voicegain公司已开发出一种识别器,其功能与Nunance ASR非常相似(例如,采用GRXML语法),并且还提供了Twilio Media Streams集成,可轻松用作Twilio的ASR。与说将Google STT与Twilio结合使用相比,优势在于,我们的识别器本机使用语法,因此在特定用例上,准确性可能比Google STT高得多,此外,我们的识别器还支持完全超时,即,它知道语法匹配并且会从较长的不完整超时切换为较短的完整超时。

查看此处:www.voicegain.ai/post/announcing-twilio-twiml-connect-stream-support