通过网站拨打电话并解释演讲

时间:2012-01-11 11:24:16

标签: speech-recognition telephony

我不确定最好的办法是什么,所以我想我会问你聪明的人。

我想创建一个网站,用户可以在其中输入自己的电话号码。

一旦他们这样做,我希望“网站”给他们打电话并播放自动信息,然后等待他们作为演讲的输入(即:“你想要香蕉吗?”用户:“是”)

然后我需要解释该演讲并使网站反映所选择的行动。

到目前为止,我的结论是我需要:

  1. 创建一个电话系统(我正在看Asterisk),
  2. 将其绑定到VOIP服务以拨打实际号码
  3. 将语音流式传输到语音识别引擎(我看过LumenVox和Nuance Recogniser)
  4. 从语音识别引擎获取输出并解析文本
  5. 虽然看起来非常复杂。 设置Asterisk本身就是一个巨大的痛苦。经过5天的修补,我仍然无法接听电话。

    您是否知道有任何其他方法可以实现这一目标?

    干杯, 安德烈

3 个答案:

答案 0 :(得分:2)

要通过语音键入数字,您不需要星号和传统电话。您可以使用基于red5的ASR服务通过RTMP协议和javascript API进行通信,以挂起flash对象来录制声音。你可以在

上找到一些有趣的例子

http://speechapi.com

在此处查看演示

http://speechapi.com/demos/home/

它使用开源CMUSphinx语音识别系统进行解码,例如你可以插入非常准确的仅数字TIDIGIT模型。查看网站上的更多信息

http://cmusphinx.sourceforge.net

并可根据您的需求进行高度定制

您可以在主机上安装该服务,您只需从sourceforge项目页面下载安装

即可

https://sourceforge.net/projects/speechcloud/

答案 1 :(得分:1)

使用开源和其他组件将这样的系统集中在一起将是痛苦和耗时的。我建议使用功能齐全的IVR系统,该系统具有您在单个系统中已经需要的所有组件,您可以专注于应用程序而不是让所有组件协同工作。我建议使用Voxeo Prophecy,因为它易于使用,价格具有竞争力,提供托管和内部部署解决方案,开发人员可以免费开发和测试他们的应用程序。在这个平台上,您可以整理完整的概念证明,基本上没有任何成本。它配有语音识别引擎,文本到语音,并允许您使用名为Call Control XML (CCXML)的W3C标准进行出站呼叫。如果您不想花时间学习CCXML,您可以使用类似Chrysalis Notification Service的东西,这是托管服务或基于场所的解决方案,可让您通过API或通过其Web界面进行出站呼叫。它与Prophecy集成在一起,Chrysalis的人们将系统放在一起,就像你用这些产品描述的那样。如果您使用Prophecy,您将把语音应用程序放在一起,以使用另一个W3C standard called VoiceXML提示用户他们的回复。这是一个基于Web的标准,因此可以轻松地与Web应用程序集成,以启动呼叫和更新用户响应。

答案 2 :(得分:1)

托管服务可以为您提供帮助。

对于外拨电话,按键音交互,发送短信和其他电话善意http://www.twilio.com/非常受欢迎。上次我看,Twilio没有进行语音识别或文本到语音合成。

对于语音识别和文本到语音合成,您可能希望查看NuanceYapmeispeech.orgvlingo或其他内容。 Nuance改进了他们的开发者计划,现在将为您提供free access to their services用于开发。 Yap(我相信)最近是purchased by Amazon,所以我们可能会看到他们的服务有些变化。 Vlingo was purchased by Nuance,所以现在不确定它的状态。

有许多昂贵的托管服务可以帮助您(Convergys,TellMe,Voxeo等)。我听说过较便宜的托管IVR服务,但没有使用它们。查看AngelMetaphor IVR,看看它们是否符合您的需求。