在音频文件中搜索特定的口语单词

时间:2014-06-18 09:55:18

标签: speech-recognition

我有大约3000多个同一作者的音频文件。我需要转录这些讲座,作者在那里讲过一个特定的词。

所以我需要一个软件解决方案,它会自动找到所说的特定单词的所有文件。这个单词的说法可能会有所不同,因为音频文件的使用时间超过15年。

感谢免费/开源解决方案。

我试着搜索,并了解了狮身人面像。但我无法将其设置为用于我的项目。任何帮助是极大的赞赏。请

1 个答案:

答案 0 :(得分:17)

您可以使用CMUSphinx,这是一个支持关键字定位的开源语音识别引擎。

1)将音频转换为所需格式--16khz 16bit单声道文件:

 ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

2)从http://github.com/cmusphinx

构建并安装最新的pocketsphinx和sphinxbase

3)下载en-us generic acoustic model

4)运行检测:

  pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes

它会打印检测到的关键字及其时间。为了获得最佳检测精度,您可以调整kws_threshold。