尝试训练神经网络处理音频数据,我想评估一些内部表示。其中一个是没有相位信息的幅度谱图,但是在Hann窗口之间有很高的重叠。
有没有办法可以使用tf.contrib.signal.inverse_stft
从这个仅幅度谱图中生成音频信号?如果没有,是否有其他直接的方法(例如影响白噪声带通滤波器总和的东西)来做这个?
答案 0 :(得分:1)
我对tf的inverse_stft
了解不多;它似乎需要附加的窗口功能才能正常工作。
但是要从没有相位信息的STFT估计原始波形,您可能需要查看Griffin-Lim算法或以Mel频谱图为条件的WaveNet声码器(可以从STFT的线性频谱图得出)。
格里芬·林(Griffin-Lim)阿尔格:https://github.com/bkvogel/griffin_lim
WaveNet声码器:https://github.com/r9y9/wavenet_vocoder