应用错误收集

通过网站拨打电话并解释演讲

时间：2012-01-11 11:24:16

标签： speech-recognition telephony

我不确定最好的办法是什么，所以我想我会问你聪明的人。

我想创建一个网站，用户可以在其中输入自己的电话号码。

一旦他们这样做，我希望“网站”给他们打电话并播放自动信息，然后等待他们作为演讲的输入（即：“你想要香蕉吗？”用户：“是”）

然后我需要解释该演讲并使网站反映所选择的行动。

到目前为止，我的结论是我需要：

创建一个电话系统（我正在看Asterisk），
将其绑定到VOIP服务以拨打实际号码
将语音流式传输到语音识别引擎（我看过LumenVox和Nuance Recogniser）
从语音识别引擎获取输出并解析文本

虽然看起来非常复杂。设置Asterisk本身就是一个巨大的痛苦。经过5天的修补，我仍然无法接听电话。

您是否知道有任何其他方法可以实现这一目标？

干杯，安德烈

3 个答案:

答案 0 :(得分：2)

要通过语音键入数字，您不需要星号和传统电话。您可以使用基于red5的ASR服务通过RTMP协议和javascript API进行通信，以挂起flash对象来录制声音。你可以在

上找到一些有趣的例子

http://speechapi.com

在此处查看演示

http://speechapi.com/demos/home/

它使用开源CMUSphinx语音识别系统进行解码，例如你可以插入非常准确的仅数字TIDIGIT模型。查看网站上的更多信息

http://cmusphinx.sourceforge.net

并可根据您的需求进行高度定制

您可以在主机上安装该服务，您只需从sourceforge项目页面下载安装

即可

https://sourceforge.net/projects/speechcloud/

答案 1 :(得分：1)

使用开源和其他组件将这样的系统集中在一起将是痛苦和耗时的。我建议使用功能齐全的IVR系统，该系统具有您在单个系统中已经需要的所有组件，您可以专注于应用程序而不是让所有组件协同工作。我建议使用Voxeo Prophecy，因为它易于使用，价格具有竞争力，提供托管和内部部署解决方案，开发人员可以免费开发和测试他们的应用程序。在这个平台上，您可以整理完整的概念证明，基本上没有任何成本。它配有语音识别引擎，文本到语音，并允许您使用名为Call Control XML (CCXML)的W3C标准进行出站呼叫。如果您不想花时间学习CCXML，您可以使用类似Chrysalis Notification Service的东西，这是托管服务或基于场所的解决方案，可让您通过API或通过其Web界面进行出站呼叫。它与Prophecy集成在一起，Chrysalis的人们将系统放在一起，就像你用这些产品描述的那样。如果您使用Prophecy，您将把语音应用程序放在一起，以使用另一个W3C standard called VoiceXML提示用户他们的回复。这是一个基于Web的标准，因此可以轻松地与Web应用程序集成，以启动呼叫和更新用户响应。

答案 2 :(得分：1)

托管服务可以为您提供帮助。

对于外拨电话，按键音交互，发送短信和其他电话善意http://www.twilio.com/非常受欢迎。上次我看，Twilio没有进行语音识别或文本到语音合成。

对于语音识别和文本到语音合成，您可能希望查看Nuance，Yapme，ispeech.org，vlingo或其他内容。 Nuance改进了他们的开发者计划，现在将为您提供free access to their services用于开发。 Yap（我相信）最近是purchased by Amazon，所以我们可能会看到他们的服务有些变化。 Vlingo was purchased by Nuance，所以现在不确定它的状态。

有许多昂贵的托管服务可以帮助您（Convergys，TellMe，Voxeo等）。我听说过较便宜的托管IVR服务，但没有使用它们。查看Angel或Metaphor IVR，看看它们是否符合您的需求。