我有大约3000多个同一作者的音频文件。我需要转录这些讲座,作者在那里讲过一个特定的词。
所以我需要一个软件解决方案,它会自动找到所说的特定单词的所有文件。这个单词的说法可能会有所不同,因为音频文件的使用时间超过15年。
感谢免费/开源解决方案。
我试着搜索,并了解了狮身人面像。但我无法将其设置为用于我的项目。任何帮助是极大的赞赏。请
答案 0 :(得分:17)
您可以使用CMUSphinx,这是一个支持关键字定位的开源语音识别引擎。
1)将音频转换为所需格式--16khz 16bit单声道文件:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
2)从http://github.com/cmusphinx
构建并安装最新的pocketsphinx和sphinxbase3)下载en-us generic acoustic model
4)运行检测:
pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes
它会打印检测到的关键字及其时间。为了获得最佳检测精度,您可以调整kws_threshold。