我一直在用PortAudio进行一些实验,并且使用自然语言处理,我想知道是否有某种方法可以将两者结合起来。我想要的是一种可以从视频中获取音频的服务(视频格式可以是最简单的),并在播放时将其解析为文本。我知道这对于Android来说相当简单,但我希望这可以在计算机或笔记本电脑上工作,如果可能的话,实时。一旦我在视频中播放了声卡,我已经确定了我的映射,但我对如何实现第一部分感到有点迷茫。我知道龙,但我更喜欢使用非专有的东西来实际讲话到文本解析。解析器不一定是完美的,我可以处理拼写错误和不规则的单词形式。有什么想法吗?