我使用过用于将语音转录为书面文字(https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API)的WebkitSpeechRecognition服务。在它目前的状态下,它是一个不错的玩具,但不够准确,不足以发挥作用。然而,它擅长检测暂停并至少获得一些正确的词语来模糊用户所说的内容。
我觉得有用的是能够捕获原始音频。这样我就可以将它与转录文本一起显示出来,这样用户就可以手动重放那些没有被正确转录的句子。
不幸的是,我没有看到它暴露在API的任何地方。有没有办法实现这个目标?如果没有,是否有一个替代解决方案,我可以使用不太多的黑客和/或CPU耗尽,例如捕获Navigator.getUseMedia()
?如果是这样,我现在是否必须重写暂停检测和分裂自己的逻辑?