应用错误收集

Twilio和Nuance ASR的可能性

时间：2016-10-06 05:50:46

标签： twilio speech-recognition naturallyspeaking

是否有人使用twilio和Nuance ASR（https://developer.nuance.com/public/index.php?task=memberServices）来创建语音识别应用程序？\

我认为时滞不会使其变得可行。例如，如果我要提示用户说些什么并让Nuance识别出来并让我回复转录，那么我认为在我的系统中进行进一步的操作只需要很长时间。

从用户处捕获音频，
从twilio获取录音网址，
并将音频文件传递给细微差别
然后从细微差别中获取转录
将这些字词与我的数据相匹配
采取适当的行动

这一切都应该发生得相当快，但它是否足够快，可以为来电者所接受？

任何想法都会很棒谢谢

PS。我试图创建标签Nuance，但不允许

3 个答案:

答案 0 :(得分：2)

我目前正致力于提供实时翻译的通信平台，我正在使用Twilio作为我们的autom的平台提供商。翻译语音通话功能。来自Nuance的ASR技术至少可以说是平均水平，并且绝对不能用于低频段音频。查看Google Cloud Speech API。我用它取得了很好的成绩。 ASR大约需要3-5秒。

答案 1 :(得分：1)

Nuance Recognizer可以使用低频音频 - 实际上它设计用于电话环境 - 之前的评论不正确。然而，问题是将Twilio的音频流及时恢复到识别器以进行部分识别。通常，Nuance Recognizer使用MRCP与IVR平台集成，但我不认为Twilio支持该协议。因此，如果使用第三方引擎，您可能必须记录该短语，然后提交（传输）到您的ASR实例，处理响应，并将结果发送回Twilio - 这会导致延迟，因为ASR引擎无法处理部分音频。问题的简单示例 - 如果有人正在说话10秒钟，结果将不会再回到Twilio 10秒钟（录制时间）+传输时间+处理时间+返回Twilio的时间。

答案 2 :(得分：0)

我知道这是个老问题，但是这个问题仍然出现在Google搜索结果的第一页上，twilio asr。

这是一个无耻的插件，但我们的Voicegain公司已开发出一种识别器，其功能与Nunance ASR非常相似（例如，采用GRXML语法），并且还提供了Twilio Media Streams集成，可轻松用作Twilio的ASR。与说将Google STT与Twilio结合使用相比，优势在于，我们的识别器本机使用语法，因此在特定用例上，准确性可能比Google STT高得多，此外，我们的识别器还支持完全超时，即，它知道语法匹配并且会从较长的不完整超时切换为较短的完整超时。

查看此处：www.voicegain.ai/post/announcing-twilio-twiml-connect-stream-support