我的任务是将音频文件不是从人类的直接语音转换为文本。
例如,如果我在wav文件中有“Hello there”商店,它会将其转录为文本并在屏幕上显示“Hello there”字符串。
首选但优先级为C#的语言代码。
答案 0 :(得分:2)
SAPI当然可以做你想要的。从进程内识别器开始,将音频作为文件流连接,设置听写模式,然后离开。
现在令人失望的一点。你可能不会得到非常好的结果;事实上,我怀疑除非你很幸运,否则你可能会得到全部垃圾。
有几个问题:
Dragon Naturally Speaking Professional支持转录,但仍需要培训和单一声音。 (我相信DNS有一个适用于录音机的自定义音频模型。)我自己没有使用它,所以我不知道它在你的情况下会有多好用。
现在,如果您正在寻找特定关键字,其他人已经成功使用“音频挖掘” - 运行识别器在音频流中寻找特定关键字