我想将语音与文本集成到电子桌面应用程序中,并进行实时流式传输,而不在本地生成.mp3文件,或者您可以说直接从麦克风流式传输到Google云语音。
我在Google云网站here.上找到了一篇文章(最后一次显示需要安装SoX)。
有一个非常令人困惑的要求,那就是必须在计算机中安装SoX。
但是当我包装电子应用程序并将其发布到全世界时,没有必要每个人都安装SoX。因此,当每个人都将要安装我的应用程序时,我该如何集成它或在自己的PC上安装SoX,因为正如文档所述,SoX是必须的。有什么办法吗?
答案 0 :(得分:1)
如果在链接页面中查看在node.js中编写的最后一个示例,我们会发现它使用的模块名为“ node-record-lpcm16”,它不是GCP的一部分。如果我们继续阅读,则会找到对record.start()的调用。这样做的目的是为了获取输入的数据流(可能来自麦克风)。据我了解,当我们研究有关将语音转录为文本的文章时,我们会发现GCP不在乎音频源来自何方,而取决于您自己的应用程序从何处获得音频。该示例仅说明了一种使用SoX的可能技术,但还有其他一些技术,例如“ arecord”,甚至可能更多。我认为我们需要做的是将音频输入与GCP处理音频输入流的功能分开。因此,我不认为从GCP进行文本语音转换需要SoX,而是您获取音频数据的应用程序必须先从某个地方获取该数据,然后再将其传递给GCP,SoX是一种可能的选择。