为什么Google的语音命令数据集的采样率为16kHz

时间:2018-09-07 13:52:30

标签: speech-recognition speech-to-text tensorflow-datasets

Google发布了Speech Commands dataset。我看到所有音频文件的采样率均为16kHz。这意味着从8kHz以上的任何信息都是不可靠的(人类的听觉范围为20Hz至20kHz)。这对于语音识别极为重要,因为(不是大多数,但大多数)重要数据在8khz到20khz范围内,丢失这些数据意味着语音识别的准确性和可靠性较低。

为什么Google会选择16kHz?我错过了什么吗?

谢谢。

1 个答案:

答案 0 :(得分:1)

  

这对于语音识别极为重要,因为(不是最重要的)很多重要数据都在8khz到20khz范围内

实际上不是,许多实验表明,使用较高的采样率几乎没有任何改善。这就是每个人都使用16khz的原因。