Question

Hi Recognition Experts，

我有很多包含数字（0 - 9）的mp3文件（原始音频流采样率为11.025 kHz）。

不同的发言者（男/女）说例如＆＃34; One＆＃34;，＆＃34; Seven＆＃34;，＆＃34; Three＆＃34;等等，它们之间有暂停（约2 - 2.5秒）

我将使用CMU Sphinx识别语音（桌面应用程序）。所以我有一些问题：

由于

UPD：

尼古拉，谢谢你的回答。我已经尝试了你的建议 - 它有效！

如果你不介意，我想问一些额外的问题：

我发现其中一个voxforge声学模型比en-us-8khz更准确。可以吗？
只有45％的文件被识别正确。其他55％的人犯了20-90％的错误。因此，我的问题是：是否有可能估计获得结果的可信度？例如，我可以跳过文件，这些文件不是'＃34;不确定＆＃34;识别？
如果答案2是＆＃34;否＆＃34;，您有什么建议可以提高准确度？我知道，问题非常抽象......

提前谢谢！

UPD2：

顺便说一句，设置的最佳参数（我只是经历了各种参数）是：

-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5

Answer 1

MP3解码：我如何解码我的mp3文件意味着我应该为ffmpeg指定哪个采样率（因为我知道它不推荐用于上采样/下采样流）。我应该在解码时过滤噪音和/或频段吗？

 ffmpeg -i file.mp3 -ar 8000 file.wav

声学模型：如果我不对流进行上采样/下采样，我怎样才能找到支持11025 kHz的声学模型。如果我这样做，数字的最佳模型是什么？

en-us-8khz可在下载中找到，您需要在tutorial中创建数字语法，然后按以下方式使用

 pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000

识别模式：我发现有两种转录模式 - 按键定位和识别。考虑到我只有数字（和一些噪音）
，哪种模式会更好

识别模式