为什么在最近的神经网络语音识别系统中使用频谱图?

时间:2016-07-20 16:22:40

标签: speech-recognition recurrent-neural-network spectrogram

为什么在最近的神经网络语音识别系统(https://github.com/SeanNaren/CTCSpeechRecognition)中使用频谱图而不是学习神经网络层的频谱图变换?

1 个答案:

答案 0 :(得分:4)

如果您对功能有所了解,那么使用此信息而不是依赖于学习信息通常很有用。

例如,众所周知,只有信号能量对语音识别很重要,而信号相位并不重要。这就是为什么使用频谱图比普通信号更受欢迎的原因,你只需使用重要信息并丢弃非重要信息。能量计算需要平方,单层学习起来不容易,需要多层或者需要特殊的非线性。

实际上,进一步使用log-filterbank实际上更好,它可以生成具有相同预测质量的更紧凑的功能。

在某些情况下,相位很重要,其中之一是识别混合源,您可以根据相位信息分离源,就像DIET算法正在做的那样。但是直到考虑到语音识别这些问题时才使用频谱图。

相关问题