以自动方式转录WMA / MP3音频?

时间:2009-09-30 17:40:02

标签: speech-to-text

我有很多WMA格式的语音音频,我想机器转录它 - 即使转录不是100%准确,我认为这可能对某些人来说有点像“索引”的音频。我愿意编写一些代码来实现这一目标,但微软的Speech API可以帮助我吗?是否有可以为我做这个的应用程序?

2 个答案:

答案 0 :(得分:0)

SAPI当然可以做你想要的。从进程内识别器开始,将音频作为文件流连接(您可能需要将WMA文件转码为WAV流,因为SAPI只接受WAV输入,但您可以动态进行转码),设置听写模式,然后离开。

现在令人失望的一点。你可能不会得到非常好的结果;事实上,我怀疑除非你很幸运,否则你可能会得到全部垃圾。

有几个问题:

  1. 一旦SR引擎经过训练,听写真的很有效。如果你很幸运(像我一样),你可以得到好的结果,但如果说话者有口音,训练是必须的。
  2. 培训仅适用于单个语音。如果你在一个音频文件中有多个扬声器,它就不会运行良好。
  3. 听写的音频模型(以及一般的语音识别)假设您正在使用近距离通话麦克风(即,靠近您的脸部的麦克风,以最大限度地减少噪音拾取)。如果您的WMA文件有额外的噪音,准确度会急剧下降。
  4. 我实际上建议使用Dragon Naturally Speaking Professional;他们花了时间和金钱来制作转录。我自己没有用过它,所以我不知道它在你的情况下会有多好用。

答案 1 :(得分:-1)

你需要一个相应的程序来实现这一点,就像口述软件一样。另外,Speech API是另一种方式。我不相信这也有开源,因为这是一个非常非常复杂的软件。