Google发布了Speech Commands dataset。我看到所有音频文件的采样率均为16kHz。这意味着从8kHz以上的任何信息都是不可靠的(人类的听觉范围为20Hz至20kHz)。这对于语音识别极为重要,因为(不是大多数,但大多数)重要数据在8khz到20khz范围内,丢失这些数据意味着语音识别的准确性和可靠性较低。
为什么Google会选择16kHz?我错过了什么吗?
谢谢。
答案 0 :(得分:1)
这对于语音识别极为重要,因为(不是最重要的)很多重要数据都在8khz到20khz范围内
实际上不是,许多实验表明,使用较高的采样率几乎没有任何改善。这就是每个人都使用16khz的原因。