我有兴趣以编程方式运行webkitSpeechRecognition API。我想获取一个上传到服务器的音频文件,并使用后端的webkitSpeechRecognition API识别文本并将结果返回给客户端。
一种可能性是运行某种形式的“嵌入式”Chrome版本,但我不确定如何传递音频输入。另一种方法是使用某种形式的C ++绑定来访问API,但我不确定这是否过于复杂。
这可能吗?怎么能实现呢?
答案 0 :(得分:1)
我以前做过这个,但不是大规模的。我用过这个软件,
http://vb-audio.pagesperso-orange.fr/Cable/index.htm
我从这个链接中找到了
Play audio as microphone input
通过这种方式,您可以识别通过扬声器播放的任何内容,该程序可以制作一个虚拟麦克风,从其创建的虚拟扬声器中传输音频。
至于你的嵌入式chrome版本,你可以试着抓住铬源并用他们从麦克风上读取的代码替换代码从文件中读取,我不知道你会得到多远但是,我从来没有读过那段代码。