HTML5应用程序的服务器端语音识别

时间:2015-11-17 09:20:50

标签: .net html5 speech-recognition web-audio

我正在运行一个Web应用程序,它大量使用WebkitSpeechRecognition,而后者又使用了Google的服务器。

我想从这种依赖中释放我的应用程序。 我们已经使用了WebAudio,adi在浏览器中得到了很好的支持。

是否有针对此方案的任何合适的服务器端解决方案(Windows 2008 R2上的IIS 7.5),或者我们可以采用任何Dot Net路径来构建我们自己的识别服务器?

我知道这个问题的范围非常广泛,但即使在搜索网络后,我们仍然非常迷失方向。

2 个答案:

答案 0 :(得分:2)

对于使用Nuance(https://developer.nuance.com/public/index.php?task=prodDev)的HTTP API的一般听写应用程序,我的结果非常好。

基本上我们构建了一个websocket服务器(您可能在.NET中使用SignalR),我们从浏览器连接到这个服务器(由于分块编码的安全问题,您无法直接点击Nuance API)让我们的websocket服务器充当代理,将数据从客户端传递到Nuance。 Nuance随后返回了对所说内容的字符串解释,然后我们将其返回给客户端。

虽然YMMV,但大部分时间都非常准确。 :)我们还必须通过手动审批流程来描述我们的用例,这不是什么大问题但很有用。

答案 1 :(得分:1)

基于开源语音识别引擎(如CMUSphinx或Kaldi)有很好的服务器端解决方案,但是,服务器必须在Linux下运行,而不是Win。您可能能够运行Win服务器,但您必须将Linux解决方案移植到它。

要试用它的工作原理,您可以访问http://kaljurand.github.io/dictate.js