speech-recognition - 为什么在最近的神经网络语音识别系统中使用频谱图？

如果您对功能有所了解，那么使用此信息而不是依赖于学习信息通常很有用。

例如，众所周知，只有信号能量对语音识别很重要，而信号相位并不重要。这就是为什么使用频谱图比普通信号更受欢迎的原因，你只需使用重要信息并丢弃非重要信息。能量计算需要平方，单层学习起来不容易，需要多层或者需要特殊的非线性。

实际上，进一步使用log-filterbank实际上更好，它可以生成具有相同预测质量的更紧凑的功能。

在某些情况下，相位很重要，其中之一是识别混合源，您可以根据相位信息分离源，就像DIET算法正在做的那样。但是直到考虑到语音识别这些问题时才使用频谱图。