使用SAPI将音频(wav文件)转换为文本?

时间:2009-11-15 20:58:04

标签: sapi

我的任务是将音频文件不是从人类的直接语音转换为文本。

例如,如果我在wav文件中有“Hello there”商店,它会将其转录为文本并在屏幕上显示“Hello there”字符串。

首选但优先级为C#的语言代码。

1 个答案:

答案 0 :(得分:2)

SAPI当然可以做你想要的。从进程内识别器开始,将音频作为文件流连接,设置听写模式,然后离开。

现在令人失望的一点。你可能不会得到非常好的结果;事实上,我怀疑除非你很幸运,否则你可能会得到全部垃圾。

有几个问题:

  1. 一旦SR引擎经过训练,听写真的很有效。如果你很幸运(像我一样),你可以得到好的结果,但如果说话者有口音,训练是必须的。
  2. 培训仅适用于单个语音。如果你在一个音频文件中有多个扬声器,它就不会运行良好。
  3. 听写的音频模型(以及一般的语音识别)假设您正在使用近距离通话麦克风(即,靠近您的脸部的麦克风,以最大限度地减少噪音拾取)。如果您的WAV文件有额外的噪音,准确度会急剧下降。
  4. Dragon Naturally Speaking Professional支持转录,但仍需要培训和单一声音。 (我相信DNS有一个适用于录音机的自定义音频模型。)我自己没有使用它,所以我不知道它在你的情况下会有多好用。

    现在,如果您正在寻找特定关键字,其他人已经成功使用“音频挖掘” - 运行识别器在音频流中寻找特定关键字