是否有人使用twilio和Nuance ASR(https://developer.nuance.com/public/index.php?task=memberServices)来创建语音识别应用程序?\
我认为时滞不会使其变得可行。例如,如果我要提示用户说些什么并让Nuance识别出来并让我回复转录,那么我认为在我的系统中进行进一步的操作只需要很长时间。
这一切都应该发生得相当快,但它是否足够快,可以为来电者所接受?
任何想法都会很棒 谢谢
PS。我试图创建标签Nuance,但不允许
答案 0 :(得分:2)
我目前正致力于提供实时翻译的通信平台,我正在使用Twilio作为我们的autom的平台提供商。翻译语音通话功能。来自Nuance的ASR技术至少可以说是平均水平,并且绝对不能用于低频段音频。查看Google Cloud Speech API。我用它取得了很好的成绩。 ASR大约需要3-5秒。
答案 1 :(得分:1)
Nuance Recognizer可以使用低频音频 - 实际上它设计用于电话环境 - 之前的评论不正确。然而,问题是将Twilio的音频流及时恢复到识别器以进行部分识别。通常,Nuance Recognizer使用MRCP与IVR平台集成,但我不认为Twilio支持该协议。因此,如果使用第三方引擎,您可能必须记录该短语,然后提交(传输)到您的ASR实例,处理响应,并将结果发送回Twilio - 这会导致延迟,因为ASR引擎无法处理部分音频。问题的简单示例 - 如果有人正在说话10秒钟,结果将不会再回到Twilio 10秒钟(录制时间)+传输时间+处理时间+返回Twilio的时间。
答案 2 :(得分:0)
我知道这是个老问题,但是这个问题仍然出现在Google搜索结果的第一页上,twilio asr
。
这是一个无耻的插件,但我们的Voicegain公司已开发出一种识别器,其功能与Nunance ASR非常相似(例如,采用GRXML语法),并且还提供了Twilio Media Streams集成,可轻松用作Twilio的ASR。与说将Google STT与Twilio结合使用相比,优势在于,我们的识别器本机使用语法,因此在特定用例上,准确性可能比Google STT高得多,此外,我们的识别器还支持完全超时,即,它知道语法匹配并且会从较长的不完整超时切换为较短的完整超时。
查看此处:www.voicegain.ai/post/announcing-twilio-twiml-connect-stream-support