Question

我有大约3000多个同一作者的音频文件。我需要转录这些讲座，作者在那里讲过一个特定的词。

所以我需要一个软件解决方案，它会自动找到所说的特定单词的所有文件。这个单词的说法可能会有所不同，因为音频文件的使用时间超过15年。

感谢免费/开源解决方案。

我试着搜索，并了解了狮身人面像。但我无法将其设置为用于我的项目。任何帮助是极大的赞赏。请

Answer 1

您可以使用CMUSphinx，这是一个支持关键字定位的开源语音识别引擎。

1）将音频转换为所需格式--16khz 16bit单声道文件：

 ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

构建并安装最新的pocketsphinx和sphinxbase

4）运行检测：

  pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes

它会打印检测到的关键字及其时间。为了获得最佳检测精度，您可以调整kws_threshold。