为什么在最近的神经网络语音识别系统(https://github.com/SeanNaren/CTCSpeechRecognition)中使用频谱图而不是学习神经网络层的频谱图变换?
答案 0 :(得分:4)
如果您对功能有所了解,那么使用此信息而不是依赖于学习信息通常很有用。
例如,众所周知,只有信号能量对语音识别很重要,而信号相位并不重要。这就是为什么使用频谱图比普通信号更受欢迎的原因,你只需使用重要信息并丢弃非重要信息。能量计算需要平方,单层学习起来不容易,需要多层或者需要特殊的非线性。
实际上,进一步使用log-filterbank实际上更好,它可以生成具有相同预测质量的更紧凑的功能。
在某些情况下,相位很重要,其中之一是识别混合源,您可以根据相位信息分离源,就像DIET算法正在做的那样。但是直到考虑到语音识别这些问题时才使用频谱图。